Acesso à API do Sora em 2026: preços, limites de taxa e o que realmente está disponível por meio de agregadores

Sora 2 é o primeiro modelo de texto para vídeo de disponibilidade geral da OpenAI, acessível programaticamente tanto pela API oficial da OpenAI quanto por um conjunto crescente de rotas de agregadores. O modelo de preços é incomum em comparação com modelos de texto (a cobrança é por segundo de vídeo gerado em vez de por token), e as questões práticas que os desenvolvedores fazem antes de integrar são diferentes das de uma API de LLM. Quanto custa, de fato, um clipe? Quanto tempo leva a geração? Quais são os limites de taxa? O que muda quando você acessa o Sora por meio de um agregador em vez de diretamente pela OpenAI?

Este artigo é a referência que gostaríamos que existisse quando começamos a dimensionar nossos próprios recursos de geração de vídeo. A peça é estruturada para o desenvolvedor que já passou de “o Sora é interessante?” e agora precisa responder “quanto vai custar, o que será necessário para integrar e o que devo saber antes de me comprometer?”.

Leitura rápida: Sora 2 (o modelo padrão) custa US$ 0,10 por segundo de vídeo gerado em 720p. Sora 2 Pro custa US$ 0,30 por segundo em 720p ou US$ 0,50 por segundo em 1024p. Um clipe típico de 10 segundos custa US$ 1,00 no modelo padrão e US$ 5,00 no Pro em HD. O tempo de geração é assíncrono; espere de 30 a 90 segundos de tempo de relógio para um clipe de 5–10 segundos. O acesso exige uma conta paga da OpenAI no mínimo no nível de uso 2.

O estado do acesso à API do Sora em 2026

O Sora 2 foi lançado na API da OpenAI em 7 de outubro de 2025 e o acesso tem estado continuamente disponível desde então. O identificador do modelo é sora-2 (com um ID de snapshot atual de sora-2-2025-12-08), e a variante de fidelidade superior é sora-2-pro. Ambos suportam geração de texto para vídeo e imagem para vídeo, com saída de áudio sincronizada. Em 10 de janeiro de 2026, o acesso do consumidor no nível gratuito pelo produto ChatGPT foi descontinuado, o que concentrou o uso do Sora em nível de desenvolvedor em assinaturas pagas do ChatGPT ou acesso direto à API.

Há três caminhos para usar o Sora programaticamente:

API direta da OpenAI. A rota canônica. Cobrança por segundo, apenas paga, exige um depósito mínimo de US$ 10 para atingir o nível de uso 2 que desbloqueia o acesso ao modelo Sora. SDK e API REST ambos suportados.
Azure OpenAI. A rota empresarial da Microsoft, espelhando as tarifas oficiais da OpenAI com a adição de sobrecarga de assinatura Azure e recursos de conformidade enterprise. Mesma precificação por segundo; superfície operacional diferente.
Agregadores. Serviços que expõem o Sora por trás de sua própria API unificada. A maioria dos agregadores repassa a precificação por segundo da OpenAI em paridade; o valor é operacional (uma credencial, uma fatura, o mesmo SDK do seu tráfego de modelos de texto). Alguns agregadores oferecem suas próprias estruturas tarifárias, que discutimos mais adiante no artigo.

Preço do Sora 2 por segundo de vídeo

A precificação do Sora é estruturada por nível de modelo e resolução de saída, com uma tarifa por segundo que é multiplicada pela duração do clipe para dar o custo de geração. Verificado na página oficial de preços da OpenAI em maio de 2026:

Modelo	Resolução	Durações compatíveis	Preço por segundo	Clipe de 10 segundos
Sora 2 (padrão)	720p	4s, 8s, 12s	US$ 0,10	US$ 1,00
Sora 2 Pro	720p	10s, 15s, 25s	US$ 0,30	US$ 3,00
Sora 2 Pro	1024p (1792×1024)	10s, 15s, 25s	US$ 0,50	US$ 5,00

Notas sobre a estrutura de preços. A cobrança é pela saída, não pela entrada; não há cobrança baseada em tokens de entrada para o Sora como há para modelos de texto. A condição por imagem (enviar uma imagem de referência para ancorar a geração) não altera a tarifa por segundo. As opções de duração para cada nível de modelo são fixas: você não pode solicitar um clipe de 7 segundos no modelo padrão, apenas 4, 8 ou 12 segundos.

Duas implicações práticas que valem ser explicitadas. Primeiro: o modelo de preços é mais próximo de uma cobrança de renderização de vídeo do que de uma cobrança de LLM. O custo é impulsionado pela duração da saída, não pela complexidade do seu prompt ou quantos tokens ele contém. Segundo: a diferença de custo entre Sora 2 e Sora 2 Pro em HD é 5x por segundo: um clipe de 10 segundos custa US$ 1,00 no padrão e US$ 5,00 no Pro em 1024p. Escolher o nível certo para a tarefa é a alavanca de custo mais importante que você tem, e vale a pena ser deliberado sobre quais workloads realmente precisam da maior fidelidade do Pro.

Limites de taxa e cotas

Os limites de taxa do Sora são organizados em torno do sistema de níveis de uso padrão da OpenAI. Os detalhes relevantes para o Sora especificamente:

Requisito mínimo de nível: Nível 2, alcançado adicionando pelo menos US$ 10 de crédito de API. O Nível 1 (padrão para novas contas) não inclui acesso ao modelo Sora.
Limites de geração concorrente: De acordo com a documentação de limites de taxa da OpenAI, a geração de vídeo concorrente é restrita por nível, tipicamente um pequeno número de gerações em andamento nos níveis mais baixos, escalando com o nível de uso. O teto exato é definido por conta e visível no painel da OpenAI. Para workloads de alto volume, planeje acesso nível 3 ou nível 4 desde o primeiro dia.
Solicitações de cota: Limites de concorrência mais altos além dos tetos padrão do nível podem ser solicitados por meio do formulário de aumento de limite de taxa da OpenAI. A aprovação é específica ao workload e não é instantânea; para lançamentos de produção com picos de demanda previsíveis, solicite o aumento várias semanas antes do lançamento.

Vale saber: os limites de taxa do Sora são agrupados de forma diferente dos limites de taxa de modelos de texto na mesma conta. Uma equipe executando tráfego pesado do Sora não afeta seu orçamento de taxa disponível para chamadas GPT-5.5. Inversamente, grande tráfego do GPT-5.5 não consome o orçamento do Sora. Planeje os dois como questões de capacidade separadas.

Tempo de geração: o que realmente esperar

O Sora é assíncrono por design. Você envia uma solicitação de geração, recebe um ID de tarefa e faz polling (ou usa webhook) até a conclusão. O tempo de relógio entre a solicitação e a conclusão depende da duração e resolução da saída, da carga atual na infraestrutura da OpenAI e de a tarefa estar ou não enfileirada atrás de outras na sua conta.

Expectativas realistas com base no comportamento observado:

Saída	Tempo típico de relógio	Observações
Sora 2 padrão, 4s @ 720p	20–45 segundos	Caminho mais rápido; bom para iteração
Sora 2 padrão, 8s @ 720p	40–90 segundos	Duração de produção mais comum
Sora 2 padrão, 12s @ 720p	60–120 segundos	Conteúdo social de formato mais longo
Sora 2 Pro, 10s @ 720p	60–150 segundos	Qualidade premium; ~3x o custo do padrão
Sora 2 Pro, 15s @ 1024p	120–240 segundos	Full HD, maior espera observada em horários de pico
Sora 2 Pro, 25s @ 1024p	200–360 segundos	Duração máxima; preço escala linearmente

Duas consequências operacionais:

Orçamentos de latência voltados ao usuário precisam ser repensados. Se seu produto espera que a geração de vídeo pareça responsiva a uma ação do usuário, a faixa de 30–90 segundos para clipes curtos significa que você precisa de um UX que lide com a espera: indicadores de progresso, trabalho paralelo que o usuário pode fazer enquanto o vídeo é gerado ou pré-geração para cenários previsíveis. Tratar o Sora como uma chamada de API síncrona é o erro arquitetural mais comum que as equipes cometem.
Polling versus webhooks importa. Polling ingênuo (um loop apertado batendo no endpoint de status) desperdiça tanto seu orçamento de limite de taxa quanto o compute do modelo. Use backoff exponencial com jitter, ou configure callbacks por webhook se seu ambiente suportar. O padrão de polling que funciona bem em produção é consultar em intervalos de 10 segundos no primeiro minuto e, depois, em intervalos de 30 segundos, com um timeout rígido no limite superior esperado pelo modelo para a duração solicitada.

Parâmetros suportados e estrutura do prompt

A superfície de API do Sora é intencionalmente simples comparada a modelos de imagem como o DALL-E 3. Existem menos botões para girar, mas os que existem importam. Os parâmetros relevantes:

model: sora-2 ou sora-2-pro. A escolha determina tanto o preço quanto as opções disponíveis de duração/resolução, como mostrado na tabela de preços acima.
prompt: Texto livre descrevendo a cena. O Sora lida com direção cinematográfica (ângulos de câmera, movimento, iluminação), ações de personagens e detalhes ambientais. O modelo é sensível à estrutura do prompt: começar estabelecendo a cena, depois a ação e, por fim, a direção técnica produz resultados mais confiáveis do que um único parágrafo denso.
image: Imagem de referência opcional para geração de imagem para vídeo. A referência atua como âncora do primeiro quadro; o modelo gera movimento a partir desse ponto inicial. Útil para demos de produto, continuidade de personagens e qualquer cenário em que a aparência estática do sujeito seja inegociável.
duration: Duração em segundos. Limitada às opções discretas do modelo escolhido (4/8/12 para sora-2, 10/15/25 para sora-2-pro). O custo escala linearmente com a duração.
size: Resolução. 720x1280 (retrato) ou 1280x720 (paisagem) no modelo padrão; adiciona 1024x1792 / 1792x1024 no Pro. A proporção é implícita na seleção de size.

Ausências notáveis. O Sora atualmente não expõe controle de seed pela API pública (logo, a reprodutibilidade entre execuções não é garantida), nem expõe controles de estilo individuais como fazem o Midjourney ou outros modelos de imagem. O modelo é opinativo; engenharia de prompt é a principal alavanca, não o ajuste de parâmetros.

Um exemplo simples de solicitação de geração no Sora 2, usando o SDK Python da OpenAI:

from openai import OpenAIimport timeclient = OpenAI(api_key="YOUR_API_KEY")# Criar a tarefa de geração de vídeojob = client.videos.create(model="sora-2",prompt=("Uma tomada grande‑angular de uma montanha coberta de neve ao nascer do sol. ""A câmera desliza lentamente para a esquerda quando a primeira luz atinge o pico. ""Cinemático, hora dourada, iluminação de qualidade 4K."),size="1280x720",duration=8,)# Consultar até concluirwhile True:job = client.videos.retrieve(job.id)if job.status == "completed":video_url = job.output[0].urlbreakelif job.status == "failed":raise RuntimeError(f"Falha na geração: {job.error}")print(f"Status atual: {job.status}")time.sleep(10)print(f"Vídeo pronto: {video_url}")

Exemplos de custo calculados

A precificação por segundo torna o custo previsível, mas apenas quando você está claro sobre o formato do seu workload. Três cenários representativos:

Cenário 1: Um pequeno demo de produto para a landing page de um SaaS

Um clipe de 5 segundos mostrando a UI do produto em ação, gerado uma vez e usado como vídeo hero no site de marketing. Você espera iterar 5–10 vezes para obter um clipe com o qual fique satisfeito antes de publicar.

Custo no Sora 2 padrão em 720p: 5s × US$ 0,10 = US$ 0,50 por geração. Com 8 iterações até chegar ao corte final: US$ 4,00. Custo no Sora 2 Pro em 1024p para a versão final publicada: 5s × US$ 0,50 = US$ 2,50 (uma tomada). Custo total do projeto: aproximadamente US$ 6,50 pelas execuções de iteração mais a versão final em HD.

Cenário 2: Um lote de 50 clipes para uma campanha de marketing

50 clipes de produto únicos de 8 segundos, cada um baseado em uma descrição de recurso diferente, todos no Sora 2 padrão em 720p. Sem orçamento de iteração; você aceita a primeira geração.

Custo: 50 × 8s × US$ 0,10 = US$ 40,00. Adicione um orçamento de iteração de 30% para os clipes que não acertarem de primeira (50 × 0,30 = 15 novas tentativas × 8s × US$ 0,10 = US$ 12). Total: aproximadamente US$ 52,00 para a campanha.

Cenário 3: Um recurso de vídeo gerado pelo usuário em um produto de consumo

Usuários no seu app geram clipes de 6 segundos sob demanda, no Sora 2 padrão em 720p. Uso médio: 1.000 clipes por dia. Você cobra dos usuários US$ 0,50 por geração e aceita o diferencial de custo como margem unitária.

Custo por clipe do usuário: 6s × US$ 0,10 = US$ 0,60. Com preço ao usuário de US$ 0,50, o workload é deficitário no nível padrão: cada geração custa US$ 0,10 a mais do que o usuário paga. O nível padrão 720p requer um preço ao usuário de pelo menos US$ 0,65 para empatar antes da sobrecarga de infraestrutura. Em 30.000 clipes por mês: fatura mensal do Sora de US$ 18.000. Este é o tipo de verificação de unit economics que vale fazer antes de lançar qualquer recurso de vídeo voltado ao usuário.

A conclusão nos três cenários: a geração de vídeo é realmente acessível para workloads de marketing e conteúdo pontual, onde a contagem de iterações é limitada e o custo por ativo final é o que importa. É significativamente mais desafiadora para recursos voltados ao usuário em escala, onde o custo por geração precisa superar o preço pago pelo usuário mais a sobrecarga do produto. Seja explícito sobre qual workload você está precificando antes de se comprometer.

Acesso direto à OpenAI versus acesso via agregador

Com o Sora disponível por múltiplas rotas, a pergunta prática para a maioria das equipes é contra qual delas integrar. A resposta honesta depende do resto da sua stack.

O que é igual

Qualidade de saída, tempo de geração na camada do modelo, parâmetros suportados e precificação por segundo são tipicamente idênticos independentemente da rota, já que a maioria dos agregadores repassa os preços da OpenAI em paridade e o modelo em si é o mesmo. Se você está escolhendo a rota puramente pela qualidade da saída, tanto faz.

O que muda

Superfície de faturamento. O acesso direto à OpenAI cobra por sua conta da OpenAI; agregadores cobram por meio de seu próprio sistema de créditos ou assinaturas. Para equipes que já gerenciam faturamento da OpenAI para uso de modelos de texto, a rota direta não adiciona nada novo. Para equipes executando workloads multi-fornecedor (LLMs da Anthropic, modelos de imagem da Black Forest Labs, vídeo do Sora), um agregador consolida tudo isso em uma única fatura.
Observabilidade. O painel da OpenAI apresenta claramente o uso do Sora em nível de solicitação. Painéis de agregadores variam em quão bem lidam especificamente com workloads de geração de vídeo; alguns têm observabilidade de vídeo feita sob medida; outros tratam vídeo como uma chamada de API genérica. Vale conferir antes de se comprometer se a observabilidade é prioridade.
Agrupamento de limites de taxa. Na OpenAI direta, seus limites de taxa do Sora estão atrelados à sua conta e nível. Em um agregador, os limites são agrupados entre a base de clientes do agregador em alguns casos ou atribuídos por cliente em outros. Para workloads de produção de alto volume, pergunte ao agregador como eles tratam a alocação de limites de taxa antes de integrar.
Postura geográfica e de conformidade. A OpenAI direta é processada pela infraestrutura da OpenAI com as opções de residência de dados que a OpenAI fornece. Alguns agregadores estão sediados em jurisdições onde as regras de residência de dados diferem; outros roteiam solicitações pela infraestrutura dos EUA da OpenAI independentemente. Para workloads regulados, isso é decisivo, e é o tipo de coisa que vale pedir para a equipe de vendas do agregador colocar por escrito.

Como a CometAPI se encaixa

CometAPI expõe Sora 2 e Sora 2 Pro ao lado de mais de 500 outros modelos por trás de um único endpoint compatível com OpenAI, com uma credencial e faturamento unificado. A precificação do Sora pela CometAPI acompanha as tarifas por segundo da OpenAI; o valor operacional é consolidar o uso do Sora com o restante do seu tráfego de modelos em uma única fatura. Para equipes que executam um workload misto (modelos de texto de vários fornecedores, geração de imagens e vídeo do Sora), este é o argumento central. Para equipes usando apenas Sora e apenas um ou dois modelos de texto, a economia operacional é menor e o acesso direto à OpenAI é uma escolha defensável.

Considerações de produção

Alguns padrões que valem acertar antes de o Sora chegar perto do tráfego de produção:

Tratamento do ciclo de vida de tarefas assíncronas. Trate cada geração do Sora como uma tarefa de longa duração, não uma requisição. Persista o ID da tarefa imediatamente na criação; sobreviva a reinícios do servidor podendo retomar o polling de tarefas em andamento; trate o caso em que a tarefa conclui enquanto seu worker está offline. Isso é higiene padrão de sistemas distribuídos, mas muitas vezes é ignorado no início porque o Sora é a primeira API assíncrona que a equipe integrou.
Fallback com webhook. Se a plataforma suportar webhooks para eventos de conclusão (a API da OpenAI suporta), use-os. Webhooks eliminam a necessidade de polling e reduzem tanto a pressão no limite de taxa quanto o compute desperdiçado em checagens frequentes de status. Polling é o fallback para ambientes que não podem expor um endpoint de webhook.
Modos de falha que custam dinheiro. A OpenAI não cobra por gerações com falha, mas conclusões parciais e requisições repetidas que têm sucesso na segunda tentativa incorrem em custo. Em produção, registre o custo de cada retry e alerte se sua taxa de retry exceder o esperado, pois isso geralmente sinaliza um problema de política de conteúdo com os prompts enviados, o que é mais barato corrigir na camada de prompt do que absorver na fatura.
Política de conteúdo e implantação em produção. O Sora está limitado pelas políticas de uso da OpenAI, que restringem certas categorias de conteúdo. Para implantações em produção (especialmente voltadas ao usuário, nas quais o prompt está parcialmente sob controle do usuário), revise a documentação oficial de política de conteúdo da OpenAI e projete proteções upstream de acordo. Vincular à política da OpenAI é a referência correta; essa documentação é a fonte da verdade e muda com mais frequência do que este artigo.

O que construir primeiro

A leitura honesta sobre quais workloads do Sora estão prontos para produção hoje, quais estão no limite e quais são prematuros:

Pronto para produção hoje

Workloads de marketing e conteúdo criativo nos quais a iteração é limitada e o custo por ativo final é a métrica correta. Vídeos de demo de produto, conteúdo de campanha para redes sociais, vídeos hero para landing pages, material de treinamento interno. A economia funciona, os modos de falha são bem compreendidos e a história de latência (30–90 segundos para clipes curtos) é aceitável quando o humano no loop é a equipe de conteúdo e não o usuário final.

No limite

Recursos de geração de vídeo voltados ao usuário nos quais o custo por clipe precisa superar o preço pago pelo usuário. É viável, mas requer unit economics cuidadoso: limite a duração que os usuários podem solicitar, use Sora 2 padrão em 720p como padrão, cobre um preço que tenha margem sobre o custo por clipe. A onda de início de 2026 de apps de geração de vídeo para o consumidor está majoritariamente nessa categoria, e os que têm economia sustentável foram deliberados em restringir o que os usuários podem gerar.

Prematuro

Vídeo de formato longo em escala (qualquer coisa acima de 25 segundos, já que esse é o teto de duração atual do Sora), cenários de alto volume em tempo real onde a latência de relógio importa mais do que dólares e aplicações que esperam controle em nível de frame ou reprodutibilidade baseada em seed. Esses são workloads para revisitar quando a superfície de capacidade do Sora se expandir, não para forçar hoje.

A moldura: o Sora 2 está realmente pronto para produção para workloads de conteúdo com um humano no loop. É viável para recursos voltados ao usuário com unit economics deliberado. É prematuro para vídeo de formato longo e para casos de uso que exigem parâmetros que o Sora ainda não expõe. Construa para o que está pronto hoje; acompanhe o que ainda não está.

Experimentando na sua carga de trabalho: todas as variantes do Sora 2 e Sora 2 Pro estão disponíveis na CometAPI junto com os modelos de texto que você já pode estar usando. O crédito de teste gratuito permite gerar alguns clipes a preços padrão sem qualquer configuração além de apontar seu cliente compatível com OpenAI existente para o endpoint da CometAPI.

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Leia Mais