Sora 2 to pierwszy powszechnie dostępny model zamiany tekstu na wideo od OpenAI, dostępny programowo zarówno przez oficjalne OpenAI API, jak i rosnący zestaw tras agregatorów. Model cenowy jest nietypowy w porównaniu z modelami tekstowymi (rozliczanie odbywa się za sekundę wygenerowanego wideo, a nie za token), a praktyczne pytania, jakie zadają deweloperzy przed integracją, różnią się od tych dotyczących API LLM. Ile faktycznie kosztuje klip? Ile trwa generowanie? Jakie są limity? Co się zmienia, gdy korzystasz z Sora przez agregator zamiast bezpośrednio przez OpenAI?
Ten artykuł to kompendium, którego życzyliśmy sobie, gdy zaczynaliśmy planować własne funkcje generowania wideo. Tekst jest zbudowany z myślą o deweloperze, który ma już za sobą etap „czy Sora jest interesująca?” i musi odpowiedzieć na pytania „ile to będzie kosztować, ile zajmie integracja i co muszę wiedzieć, zanim się zobowiążę?”.
Szybki skrót: Sora 2 (model standardowy) kosztuje $0.10 za sekundę wygenerowanego wideo w 720p. Sora 2 Pro kosztuje $0.30 za sekundę w 720p lub $0.50 za sekundę w 1024p. Typowy 10‑sekundowy klip kosztuje $1.00 w modelu standardowym i $5.00 w Pro w HD. Generowanie jest asynchroniczne; oczekuj 30–90 sekund czasu rzeczywistego dla klipu 5–10‑sekundowego. Dostęp wymaga płatnego konta OpenAI na poziomie co najmniej tier 2.
Stan dostępu do API Sora w 2026 r.
Sora 2 trafiła do OpenAI API 7 października 2025 r. i dostęp jest od tego czasu ciągły. Identyfikator modelu to sora-2 (z aktualnym snapshotem sora-2-2025-12-08), a wariant o wyższej wierności to sora-2-pro. Oba wspierają generowanie tekst‑na‑wideo i obraz‑na‑wideo, z zsynchronizowanym wyjściem audio. Od 10 stycznia 2026 r. bezpłatny dostęp konsumencki przez ChatGPT został wycofany, co skupiło użycie Sora klasy developerskiej na płatnych subskrypcjach ChatGPT lub bezpośrednim dostępie przez API.
Istnieją trzy sposoby programowego użycia Sora:
- OpenAI direct API. Trasa kanoniczna. Rozliczanie za sekundę, tylko płatnie, wymagane doładowanie co najmniej $10, aby osiągnąć usage tier 2 odblokowujący dostęp do Sora. Obsługiwane SDK i REST API.
- Azure OpenAI. Korporacyjna ścieżka Microsoftu, odwzorowująca oficjalne stawki OpenAI z dodanym kosztem subskrypcji Azure i funkcjami zgodności klasy enterprise. Te same stawki za sekundę; inna powierzchnia operacyjna.
- Agregatory. Usługi, które wystawiają Sora za własnym zunifikowanym API. Większość agregatorów przenosi stawki OpenAI 1:1; wartość leży w operacyjności (jedne poświadczenia, jedna faktura, to samo SDK co dla ruchu modeli tekstowych). Niektórzy agregatorzy oferują własne taryfy — omawiamy to później w artykule.
Cennik Sora 2 za sekundę wideo
Ceny Sora są zorganizowane według poziomu modelu i rozdzielczości wyjścia, ze stawką za sekundę mnożoną przez długość klipu, co daje koszt generowania. Zweryfikowano z oficjalnej strony cennika OpenAI na maj 2026 r.:
| Model | Rozdzielczość | Obsługiwane długości | Cena za sekundę | Klip 10‑sekundowy |
|---|---|---|---|---|
| Sora 2 (standard) | 720p | 4s, 8s, 12s | $0.10 | $1.00 |
| Sora 2 Pro | 720p | 10s, 15s, 25s | $0.30 | $3.00 |
| Sora 2 Pro | 1024p (1792×1024) | 10s, 15s, 25s | $0.50 | $5.00 |
Uwagi dotyczące struktury cenowej. Rozliczanie dotyczy wyjścia, nie wejścia; Sora nie ma rozliczania tokenowego za wejście jak modele tekstowe. Uwarunkowanie obrazem (przekazanie obrazu referencyjnego jako punktu zakotwiczenia generacji) nie zmienia stawki za sekundę. Opcje długości są stałe dla każdego poziomu modelu: nie możesz poprosić o 7‑sekundowy klip w modelu standardowym, tylko 4, 8 lub 12 sekund.
Dwa praktyczne wnioski, które warto jasno zaznaczyć. Po pierwsze: model cenowy jest bliższy rachunkowi za renderowanie wideo niż rachunkowi za LLM. Koszt zależy od długości wyjścia, a nie od złożoności promptu czy liczby tokenów. Po drugie: różnica kosztu między Sora 2 a Sora 2 Pro w HD to 5× na sekundę: 10‑sekundowy klip kosztuje $1.00 w standardzie i $5.00 w Pro przy 1024p. Wybór właściwego poziomu do zadania to największa dźwignia kosztowa — warto świadomie zdecydować, które prace naprawdę wymagają wyższej wierności Pro.
Limity i kwoty
Limity Sora są zorganizowane wokół standardowego systemu usage tiers OpenAI. Najważniejsze kwestie specyficzne dla Sora:
- Minimalny poziom: Tier 2, osiągany przez doładowanie co najmniej $10 kredytów API. Tier 1 (domyślny dla nowych kont) nie obejmuje dostępu do modelu Sora.
- Limity równoległych generacji: Zgodnie z dokumentacją limitów OpenAI, równoległe generowanie wideo jest ograniczone przez tier — typowo to niewielka liczba zadań w toku na niższych tierach, skalująca się z poziomem. Dokładny sufit jest ustawiany per konto i widoczny w panelu OpenAI. Dla dużej skali planuj poziom 3 lub 4 od pierwszego dnia.
- Wnioski o zwiększenie limitów: Wyższe limity współbieżności ponad domyślne sufity poziomów można uzyskać poprzez formularz zwiększenia limitów OpenAI. Zgody są zależne od obciążenia i nie są natychmiastowe; przy wdrożeniach produkcyjnych z przewidywanymi pikami popytu złóż wniosek kilka tygodni przed startem.
Warto wiedzieć: limity dla Sora są pulowane inaczej niż limity modeli tekstowych na tym samym koncie. Zespół intensywnie korzystający z Sora nie wpływa na dostępny budżet limitów dla wywołań GPT‑5.5. I odwrotnie — duży ruch GPT‑5.5 nie zjada budżetu Sora. Traktuj je jako dwie oddzielne kwestie pojemnościowe.
Czas generowania: czego faktycznie oczekiwać
Sora jest z założenia asynchroniczna. Wysyłasz żądanie generowania, otrzymujesz identyfikator zadania i odpytyjesz (lub odbierasz webhook) aż do zakończenia. Czas rzeczywisty między żądaniem a zakończeniem zależy od długości i rozdzielczości wyjścia, bieżącego obciążenia infrastruktury OpenAI oraz tego, czy zadanie jest w kolejce za innymi na twoim koncie.
Realistyczne oczekiwania na podstawie obserwacji:
| Wyjście | Typowy czas rzeczywisty | Uwagi |
|---|---|---|
| Sora 2 standard, 4s @ 720p | 20–45 sekund | Najszybsza ścieżka; dobra do iteracji |
| Sora 2 standard, 8s @ 720p | 40–90 sekund | Najczęstsza długość w produkcji |
| Sora 2 standard, 12s @ 720p | 60–120 sekund | Dłuższe treści do social mediów |
| Sora 2 Pro, 10s @ 720p | 60–150 sekund | Jakość premium; ~3× koszt standardu |
| Sora 2 Pro, 15s @ 1024p | 120–240 sekund | Pełne HD, dłuższe kolejki w godzinach szczytu |
| Sora 2 Pro, 25s @ 1024p | 200–360 sekund | Maksymalna długość; cena skaluje się liniowo |
Dwie konsekwencje operacyjne:
- Budżety opóźnień w interfejsie trzeba przemyśleć. Jeśli produkt ma sprawiać wrażenie reaktywności na akcję użytkownika, zakres 30–90 sekund dla krótkich klipów oznacza, że potrzebujesz UX obsługującego oczekiwanie: wskaźniki postępu, równoległe działania dla użytkownika podczas generowania wideo albo pre‑generowanie w przewidywalnych scenariuszach. Traktowanie Sora jak synchronicznego wywołania API to najczęstszy błąd architektoniczny zespołów.
- Polling vs webhooki ma znaczenie. Naiwny polling (ciasna pętla uderzająca w endpoint statusu) marnuje zarówno twój budżet limitów, jak i zasoby modelu. Używaj wykładniczego backoffu z jitterem lub skonfiguruj callbacki webhook, jeśli środowisko to wspiera. Sprawdzony wzorzec w produkcji: odpytywać co 10 sekund przez pierwszą minutę, potem co 30 sekund, z twardym timeoutem równym górnej granicy czasu oczekiwanego dla danej długości.
Obsługiwane parametry i struktura promptu
Powierzchnia API Sora jest celowo prostsza niż w modelach obrazowych, takich jak DALL‑E 3. Pokręteł jest mniej, ale te dostępne mają znaczenie. Kluczowe parametry:
- model: sora-2 lub sora-2-pro. Wybór determinuje zarówno cenę, jak i dostępne opcje długości/rozdzielczości, jak w tabeli cen.
- prompt: Dowolny tekst opisujący scenę. Sora radzi sobie z reżyserią filmową (kąty kamery, ruch, oświetlenie), akcjami postaci i detalami otoczenia. Model jest wrażliwy na strukturę promptu: wstępne zarysowanie sceny, potem akcja, a na końcu wskazówki techniczne daje bardziej powtarzalne rezultaty niż jeden gęsty akapit.
- image: Opcjonalny obraz referencyjny dla generowania obraz‑na‑wideo. Referencja działa jak kotwica pierwszej klatki; model generuje ruch wychodząc od tego punktu. Przydatne w demach produktowych, ciągłości postaci i wszędzie tam, gdzie statyczny wygląd obiektu jest niepodlegający negocjacji.
- duration: Długość w sekundach. Ograniczona do dyskretnych opcji dla wybranego modelu (4/8/12 dla sora-2, 10/15/25 dla sora-2-pro). Koszt skaluje się liniowo z długością.
- size: Rozdzielczość. 720x1280 (pion) lub 1280x720 (poziom) w modelu standardowym; w Pro dochodzi 1024x1792 / 1792x1024. Proporcje są implikowane przez wybór rozmiaru.
Istotne braki. Sora nie udostępnia obecnie kontroli seeda przez publiczne API (więc powtarzalność między uruchomieniami nie jest gwarantowana), ani indywidualnych przełączników stylu jak w Midjourney lub innych modelach obrazowych. Model jest opiniotwórczy; główną dźwignią jest inżynieria promptu, nie strojenie parametrów.
Prosty przykład żądania generowania w Sora 2 z użyciem OpenAI Python SDK:
| from openai import OpenAIimport timeclient = OpenAI(api_key="YOUR_API_KEY")# Utwórz zadanie generowania wideojob = client.videos.create(model="sora-2",prompt=("A wide-angle shot of a snow-capped mountain at sunrise. ""The camera slowly tracks left as the first light hits the peak. ""Cinematic, golden hour, 4K-quality lighting."),size="1280x720",duration=8,)# Sprawdzaj status do zakończeniawhile True:job = client.videos.retrieve(job.id)if job.status == "completed":video_url = job.output[0].urlbreakelif job.status == "failed":raise RuntimeError(f"Generowanie nie powiodło się: {job.error}")print(f"Bieżący status: {job.status}")time.sleep(10)print(f"Wideo gotowe: {video_url}") |
|---|
Przykładowe kalkulacje kosztów
Rozliczanie za sekundę czyni koszt przewidywalnym, ale dopiero po uświadomieniu sobie kształtu obciążenia. Trzy reprezentatywne scenariusze:
Scenariusz 1: Krótkie demo produktu na stronę SaaS
Klip 5‑sekundowy pokazujący działanie interfejsu produktu, generowany raz i użyty jako wideo hero na stronie marketingowej. Oczekujesz 5–10 iteracji, aby uzyskać zadowalający klip przed publikacją.
Koszt na Sora 2 standard w 720p: 5s × $0.10 = $0.50 za generację. Przy 8 iteracjach, aby dojść do finalnej wersji: $4.00. Koszt na Sora 2 Pro w 1024p dla finalnej wersji: 5s × $0.50 = $2.50 (jedno podejście). Łączny koszt projektu: około $6.50 za przebiegi iteracyjne plus finalne HD.
Scenariusz 2: Pakiet 50 klipów do kampanii marketingowej
50 unikalnych 8‑sekundowych klipów produktowych, każdy oparty na innym opisie funkcji, wszystkie na Sora 2 standard w 720p. Brak budżetu iteracyjnego; akceptujesz pierwsze generowanie.
Koszt: 50 × 8s × $0.10 = $40.00. Dodaj 30% budżetu iteracyjnego dla klipów, które nie wyjdą za pierwszym razem (50 × 0.30 = 15 powtórek × 8s × $0.10 = $12). Razem: około $52.00 za kampanię.
Scenariusz 3: Funkcja generowania wideo przez użytkowników w aplikacji konsumenckiej
Użytkownicy generują 6‑sekundowe klipy na żądanie, na Sora 2 standard w 720p. Średnie użycie: 1000 klipów dziennie. Pobierasz od użytkowników $0.50 za generację i akceptujesz różnicę jako marżę jednostkową.
Koszt klipu użytkownika: 6s × $0.10 = $0.60. Przy cenie $0.50 obciążenie jest nierentowne na standardowym poziomie: każda generacja kosztuje $0.10 więcej niż użytkownik płaci. 720p standard wymaga ceny co najmniej $0.65, aby wyjść na zero przed kosztami infrastruktury. Przy 30 000 klipów miesięcznie: miesięczny rachunek za Sora to $18,000. To przykład kontroli unit economics, którą warto zrobić przed uruchomieniem funkcji generowania wideo dla użytkowników.
Wniosek z trzech scenariuszy: generowanie wideo jest naprawdę opłacalne dla marketingu i treści jednorazowych, gdzie liczba iteracji jest ograniczona, a liczy się koszt finalnego zasobu. Jest znacząco trudniejsze dla funkcji użytkownik‑w‑pętli na dużą skalę, gdzie koszt per generacja musi przewyższać cenę płaconą przez użytkownika plus narzut produktowy. Zdefiniuj explicite, które obciążenie wyceniasz, zanim się zobowiążesz.
Dostęp bezpośredni do OpenAI a dostęp przez agregator
Skoro Sora jest dostępna kilkoma drogami, praktyczne pytanie brzmi: którą zintegrować? Uczciwa odpowiedź zależy od reszty twojego stosu.
Co jest takie samo
Jakość wyjścia, czas generowania na poziomie modelu, obsługiwane parametry i rozliczanie za sekundę są zazwyczaj identyczne niezależnie od drogi, bo większość agregatorów przekazuje stawki OpenAI po parytecie, a sam model jest ten sam. Jeśli wybierasz wyłącznie na bazie jakości wyjścia, wybór jest obojętny.
Co się różni
- Powierzchnia rozliczeń. Bezpośrednio przez OpenAI rozliczenia idą przez twoje konto OpenAI; agregatory rozliczają przez własny system kredytów lub subskrypcji. Dla zespołów już zarządzających rozliczeniami OpenAI dla modeli tekstowych droga bezpośrednia nic nowego nie dodaje. Dla zespołów z obciążeniem multi‑provider (LLM od Anthropic, modele obrazowe od Black Forest Labs, wideo z Sora) agregator konsoliduje to na jednej fakturze.
- Obserwowalność. Dashboard OpenAI przejrzyście pokazuje użycie Sora na poziomie żądania. Dashboardy agregatorów różnią się tym, jak dobrze traktują obciążenia generowania wideo; jedne mają dedykowaną obserwowalność wideo, inne traktują wideo jak generyczne wywołanie API. Warto sprawdzić przed decyzją, jeśli obserwowalność jest priorytetem.
- Pule limitów. W OpenAI bezpośrednio limity Sora są związane z twoim kontem i tierem. U agregatora limity bywają pulowane w poprzek bazy klientów albo przypisywane per klient. Dla obciążeń produkcyjnych na dużą skalę zapytaj agregatora, jak alokuje limity, zanim się zintegrujesz.
- Geografia i zgodność. Bezpośrednio przez OpenAI dane są przetwarzane przez infrastrukturę OpenAI z opcjami rezydencji danych, które OpenAI zapewnia. Część agregatorów działa w jurysdykcjach o innych zasadach rezydencji; inni routują żądania przez infrastrukturę OpenAI w USA niezależnie. Dla obciążeń regulowanych to kwestia rozstrzygająca — warto poprosić zespół sprzedaży agregatora o pisemne potwierdzenie.
Jak w to wpisuje się CometAPI
CometAPI wystawia Sora 2 i Sora 2 Pro obok 500+ innych modeli za jednym endpointem kompatybilnym z OpenAI, z jednymi poświadczeniami i zunifikowanym rozliczaniem. Cennik Sora przez CometAPI odzwierciedla stawki OpenAI za sekundę; wartością operacyjną jest konsolidacja użycia Sora z resztą ruchu do modeli na jednej fakturze. Dla zespołów z mieszanym obciążeniem (modele tekstowe od wielu dostawców, generowanie obrazów i wideo Sora) to kluczowy argument. Dla zespołów używających tylko Sora i jednego‑dwóch modeli tekstowych oszczędność operacyjna jest mniejsza i bezpośredni dostęp do OpenAI jest obronnym wyborem.
Kwestie produkcyjne
Kilka wzorców, które warto dobrze ustawić, zanim Sora trafi na ruch produkcyjny:
- Obsługa cyklu życia zadań async. Traktuj każdą generację Sora jako długotrwające zadanie, nie żądanie. Trwale zapisuj ID zadania natychmiast po utworzeniu; przetrwaj restart serwera dzięki wznawianiu pollingu dla zadań w toku; obsłuż przypadek, gdy zadanie zakończyło się, gdy worker był offline. To standardowa higiena systemów rozproszonych, ale bywa pomijana, bo Sora jest pierwszym asynchronicznym API, z którym zespół się integruje.
- Fallback na webhook. Jeśli platforma wspiera webhooki dla zdarzeń zakończenia (OpenAI API wspiera), używaj ich. Webhooki zdejmują potrzebę pollingu i zmniejszają presję na limity oraz marnowanie mocy na częste sprawdzanie statusu. Polling to fallback dla środowisk, które nie mogą wystawić endpointu webhook.
- Tryby awarii, które kosztują. OpenAI nie nalicza opłat za nieudane generacje, ale częściowe wyniki i ponowione żądania, które sukcesem kończą się za drugim razem, generują koszt. W produkcji loguj koszt każdej próby i alarmuj, jeśli wskaźnik retry przewyższa oczekiwania — to zwykle sygnał problemu z polityką treści a propos wysyłanych promptów, co taniej skorygować na warstwie promptu niż dopłacać w rachunku.
- Polityka treści a wdrożenie produkcyjne. Sora jest ograniczona przez polityki użycia OpenAI, które restrykcyjnie traktują niektóre kategorie treści. Dla wdrożeń produkcyjnych (zwłaszcza w funkcjach użytkownik‑w‑pętli, gdzie prompt częściowo kontroluje użytkownik) przejrzyj oficjalną dokumentację polityki treści OpenAI i zaprojektuj odpowiednie zabezpieczenia upstream. Odwołanie do polityki OpenAI to właściwe źródło — ta dokumentacja zmienia się częściej niż ten artykuł.
Co zbudować najpierw
Uczciwe spojrzenie na to, które obciążenia Sora są gotowe do produkcji dziś, które są „na granicy”, a które są przedwczesne:
Gotowe do produkcji już dziś
Prace marketingowe i kreatywne, gdzie liczba iteracji jest ograniczona, a liczy się koszt finalnego zasobu. Wideo demonstracyjne produktu, treści do kampanii social media, hero‑wideo na landing page, materiały szkoleniowe wewnętrzne. Ekonomika się spina, tryby awarii są dobrze zrozumiane, a opóźnienia (30–90 sekund dla krótkich klipów) są akceptowalne, gdy w pętli jest zespół contentowy, a nie użytkownik końcowy.
Na granicy
Funkcje generowania wideo dostępne dla użytkowników, gdzie koszt per klip musi pokryć cenę płaconą przez użytkownika. To wykonalne, ale wymaga ostrej unit economics: ogranicz długość, jaką użytkownicy mogą zamawiać, domyślnie używaj Sora 2 standard w 720p, pobieraj cenę z marżą ponad koszt klipu. Wczesnofazowa fala aplikacji do generowania wideo dla konsumentów z początku 2026 r. mieści się głównie w tej kategorii, a te z trwałą ekonomią były wszystkie świadome ograniczeń tego, co użytkownicy mogą generować.
Przedwczesne
Długie formy wideo na skalę (cokolwiek powyżej 25 sekund, bo to obecny sufit długości Sora), scenariusze wysokiej przepustowości czasu rzeczywistego, gdzie ważniejszy niż dolary jest czas rzeczywisty, i aplikacje oczekujące kontroli na poziomie klatek lub powtarzalności opartej o seed. To obciążenia, do których warto wrócić, gdy powierzchnia możliwości Sora się rozszerzy — nie warto ich dziś na siłę dopasowywać.
Ramy: Sora 2 jest naprawdę gotowa produkcyjnie dla prac contentowych z człowiekiem w pętli. Jest wykonalna dla funkcji użytkownik‑w‑pętli przy świadomej ekonomii jednostkowej. Jest przedwczesna dla długich form i zastosowań wymagających parametrów, których Sora jeszcze nie udostępnia. Buduj pod to, co gotowe dziś; obserwuj to, co jeszcze nie jest.
Wypróbuj na swoim obciążeniu: Wszystkie warianty Sora 2 i Sora 2 Pro są dostępne w CometAPI obok modeli tekstowych, z których możesz już korzystać. Darmowy kredyt startowy pozwala wygenerować kilka klipów po stawkach standardowych bez żadnych przygotowań poza skierowaniem istniejącego klienta kompatybilnego z OpenAI na endpoint CometAPI.
