Acesso à API do Sora em 2026: preços, limites de taxa e o que realmente está disponível por meio de agregadores

CometAPI
AnnaMay 21, 2026
Acesso à API do Sora em 2026: preços, limites de taxa e o que realmente está disponível por meio de agregadores

Sora 2 é o primeiro modelo de texto para vídeo geralmente disponível da OpenAI, acessível programaticamente tanto pela API oficial da OpenAI quanto por um conjunto crescente de rotas de agregadores. O modelo de preços é incomum em comparação aos modelos de texto (a cobrança é por segundo de vídeo gerado e não por token), e as questões práticas que os desenvolvedores fazem antes de integrar são diferentes das de uma API de LLM. Quanto custa um clipe de fato? Quanto tempo leva a geração? Quais são os limites de taxa? O que muda quando você acessa o Sora por um agregador em vez de diretamente pela OpenAI?

Este artigo é a referência que gostaríamos que existisse quando começamos a dimensionar nossos próprios recursos de geração de vídeo. A peça é estruturada para o desenvolvedor que já passou de “o Sora é interessante?” e agora precisa responder “quanto vai custar, o que será necessário para integrar e o que preciso saber antes de me comprometer?”.

Leitura rápida: Sora 2 (o modelo padrão) custa $0.10 por segundo de vídeo gerado em 720p. Sora 2 Pro custa $0.30 por segundo em 720p ou $0.50 por segundo em 1024p. Um clipe típico de 10 segundos custa $1.00 no modelo padrão e $5.00 no Pro em HD. O tempo de geração é assíncrono; espere 30–90 segundos de tempo de relógio para um clipe de 5–10 segundos. O acesso requer uma conta paga da OpenAI no mínimo no nível de uso 2.

O estado do acesso à API do Sora em 2026

Sora 2 foi lançado na API da OpenAI em 7 de outubro de 2025, e o acesso tem estado continuamente disponível desde então. O identificador do modelo é sora-2 (com um snapshot atual de sora-2-2025-12-08), e a variante de maior fidelidade é sora-2-pro. Ambos suportam geração de texto para vídeo e de imagem para vídeo, com saída de áudio sincronizada. Em 10 de janeiro de 2026, o acesso ao nível gratuito para consumidores pelo produto ChatGPT foi descontinuado, o que concentrou o uso do Sora em nível de desenvolvedor em assinaturas pagas do ChatGPT ou acesso direto à API.

Há três caminhos para usar o Sora programaticamente:

  • OpenAI direct API. A rota canônica. Cobrança por segundo, apenas paga, requer um crédito mínimo de $10 para atingir o nível de uso 2 que desbloqueia o acesso ao modelo Sora. SDK e API REST são suportados.
  • Azure OpenAI. A rota corporativa da Microsoft, espelhando as tarifas oficiais da OpenAI com a adição da sobrecarga de assinatura Azure e recursos de conformidade corporativa. Mesmo preço por segundo; superfície operacional diferente.
  • Agregadores. Serviços que expõem o Sora por trás de uma API unificada própria. A maioria dos agregadores repassa o preço por segundo da OpenAI em paridade; o valor é operacional (uma credencial, uma fatura, o mesmo SDK do seu tráfego de modelos de texto). Alguns agregadores oferecem suas próprias estruturas tarifárias, que discutimos mais adiante no artigo.

Sora 2: preço por segundo de vídeo

A precificação do Sora é estruturada por nível de modelo e resolução de saída, com uma tarifa por segundo que é multiplicada pela duração do clipe para obter o custo de geração. Confirmado na página oficial de preços da OpenAI em maio de 2026:

ModeloResoluçãoDurações suportadasPreço por segundoClipe de 10 segundos
Sora 2 (padrão)720p4s, 8s, 12s$0.10$1.00
Sora 2 Pro720p10s, 15s, 25s$0.30$3.00
Sora 2 Pro1024p (1792×1024)10s, 15s, 25s$0.50$5.00

Observações sobre a estrutura de preços. A precificação é pela saída, não pela entrada; não há cobrança baseada em tokens de entrada para o Sora como há para modelos de texto. O condicionamento por imagem (passar uma imagem de referência para ancorar a geração) não altera a tarifa por segundo. As opções de duração para cada nível de modelo são fixas: você não pode solicitar um clipe de 7 segundos no modelo padrão, apenas 4, 8 ou 12 segundos.

Duas implicações práticas que valem ser explicitadas. Primeiro: o modelo de preços é mais próximo de uma fatura de renderização de vídeo do que de uma fatura de LLM. O custo é impulsionado pela duração de saída, não pela complexidade do seu prompt ou quantos tokens ele contém. Segundo: a diferença de custo entre Sora 2 e Sora 2 Pro em HD é 5x por segundo: um clipe de 10 segundos custa $1.00 no padrão e $5.00 no Pro em 1024p. Escolher o nível certo para a tarefa é a maior alavanca de custo que você tem, e vale a pena ser deliberado sobre quais workloads realmente precisam da fidelidade superior do Pro.

Limites de taxa e cotas

Os limites de taxa do Sora são organizados em torno do sistema padrão de níveis de uso da OpenAI. Os detalhes relevantes para o Sora especificamente:

  • Requisito mínimo de nível: Nível 2, alcançado ao adicionar pelo menos $10 de crédito de API. O nível 1 (padrão para novas contas) não inclui acesso ao modelo Sora.
  • Limites de geração concorrente: Conforme a documentação de limites de taxa da OpenAI, a geração de vídeo concorrente é restrita por nível, tipicamente um pequeno número de gerações em andamento nos níveis mais baixos, escalando com o nível de uso. O teto exato é definido por conta e visível no dashboard da OpenAI. Para workloads de alto volume, planeje acesso de nível 3 ou nível 4 desde o primeiro dia.
  • Solicitações de cota: Limites de concorrência mais altos além dos tetos padrão por nível podem ser solicitados pelo formulário de aumento de limites de taxa da OpenAI. A aprovação é específica ao workload e não é instantânea; para lançamentos de produção com picos de demanda previsíveis, solicite o aumento várias semanas antes do lançamento.

Vale saber: os limites de taxa do Sora são agrupados de forma diferente dos limites de taxa dos modelos de texto na mesma conta. Uma equipe executando tráfego intenso do Sora não afeta o orçamento de limite de taxa disponível para chamadas do GPT-5.5. E, inversamente, grande tráfego de GPT-5.5 não consome o orçamento do Sora. Planeje os dois como questões de capacidade separadas.

Tempo de geração: o que realmente esperar

O Sora é assíncrono por design. Você envia uma solicitação de geração, recebe um ID de job e faz polling (ou recebe webhook) até a conclusão. O tempo de relógio entre a solicitação e a conclusão depende da duração e resolução da saída, da carga atual na infraestrutura da OpenAI e de se o job está em fila atrás de outros na sua conta.

Expectativas realistas com base no comportamento observado:

SaídaTempo típico de relógioObservações
Sora 2 padrão, 4s @ 720p20–45 segundosCaminho mais rápido; bom para iteração
Sora 2 padrão, 8s @ 720p40–90 segundosDuração de produção mais comum
Sora 2 padrão, 12s @ 720p60–120 segundosConteúdo social de formato mais longo
Sora 2 Pro, 10s @ 720p60–150 segundosQualidade premium; custo ~3x do padrão
Sora 2 Pro, 15s @ 1024p120–240 segundosFull HD, maior enfileiramento em horários de pico
Sora 2 Pro, 25s @ 1024p200–360 segundosDuração máxima; preço escala linearmente

Duas consequências operacionais:

  • Orçamentos de latência voltados ao usuário precisam ser repensados. Se o seu produto espera que a geração de vídeo pareça responsiva a uma ação do usuário, a faixa de 30–90 segundos para clipes curtos significa que você precisa de um UX que lide com a espera: indicadores de progresso, trabalho paralelo que o usuário pode fazer enquanto o vídeo é gerado, ou pré-geração para cenários previsíveis. Tratar o Sora como uma chamada de API síncrona é o erro de arquitetura mais comum que as equipes cometem.
  • Polling versus webhooks importa. Polling ingênuo (um loop apertado batendo no endpoint de status) desperdiça tanto seu orçamento de limite de taxa quanto o compute do modelo. Use backoff exponencial com jitter, ou configure callbacks por webhook se seu ambiente suportar. O padrão de polling que funciona bem em produção é consultar em intervalos de 10 segundos no primeiro minuto, depois em intervalos de 30 segundos além disso, com um timeout rígido no limite superior esperado do modelo para a duração solicitada.

Parâmetros suportados e estrutura do prompt

A superfície de API do Sora é intencionalmente simples em comparação a modelos de geração de imagem como DALL-E 3. Há menos botões para girar, mas os que existem importam. Os parâmetros relevantes:

  • model: sora-2 ou sora-2-pro. A escolha determina tanto a precificação quanto as opções de duração/resolução disponíveis, como mostrado na tabela de preços acima.
  • prompt: Texto livre descrevendo a cena. O Sora lida com direção cinematográfica (ângulos de câmera, movimento, iluminação), ações de personagens e detalhes ambientais. O modelo é sensível à estrutura do prompt: começar estabelecendo a cena, depois a ação e então a direção técnica produz resultados mais confiáveis do que um único parágrafo denso.
  • image: Imagem de referência opcional para geração de imagem para vídeo. A referência atua como o primeiro quadro de ancoragem; o modelo gera movimento a partir desse ponto inicial. Útil para demos de produto, continuidade de personagem e qualquer cenário em que a aparência estática do assunto seja inegociável.
  • duration: Duração em segundos. Limitada às opções discretas do modelo escolhido (4/8/12 para sora-2, 10/15/25 para sora-2-pro). O custo escala linearmente com a duração.
  • size: Resolução. 720x1280 (retrato) ou 1280x720 (paisagem) no modelo padrão; adiciona 1024x1792 / 1792x1024 no Pro. A proporção de aspecto é implícita na seleção de size.

Ausências notáveis. O Sora atualmente não expõe controle de semente pela API pública (portanto, a reprodutibilidade entre execuções não é garantida), nem expõe controles de estilo individuais como o Midjourney ou outros modelos de imagem. O modelo é opinativo; engenharia de prompt é a principal alavanca, não o ajuste de parâmetros.

Um exemplo simples de uma solicitação de geração do Sora 2, usando o OpenAI Python SDK:

from openai import OpenAIimport timeclient = OpenAI(api_key="YOUR_API_KEY")# Criar o job de geração de vídeojob = client.videos.create(model="sora-2",prompt=("A wide-angle shot of a snow-capped mountain at sunrise. ""The camera slowly tracks left as the first light hits the peak. ""Cinematic, golden hour, 4K-quality lighting."),size="1280x720",duration=8,)# Fazer polling até concluirwhile True:job = client.videos.retrieve(job.id)if job.status == "completed":video_url = job.output[0].urlbreakelif job.status == "failed":raise RuntimeError(f"Falha na geração: {job.error}")print(f"Status atual: {job.status}")time.sleep(10)print(f"Vídeo pronto: {video_url}")

Exemplos de custo detalhados

A precificação por segundo torna o custo previsível, mas apenas quando você tem clareza sobre o formato da sua carga de trabalho. Três cenários representativos:

Cenário 1: Um demo curto de produto para a landing page de um SaaS

Um clipe de 5 segundos mostrando a UI do produto em ação, gerado uma vez e usado como vídeo de destaque no site de marketing. Você espera iterar de 5 a 10 vezes para obter um clipe com o qual esteja satisfeito antes de publicar.

Custo no Sora 2 padrão a 720p: 5s × $0.10 = $0.50 por geração. Com 8 iterações até chegar ao corte final: $4.00. Custo no Sora 2 Pro a 1024p para a versão final publicada: 5s × $0.50 = $2.50 (uma única tomada). Custo total do projeto: aproximadamente $6.50 pelas execuções de iteração mais o final em HD.

Cenário 2: Um lote de 50 clipes para uma campanha de marketing

50 clipes de produto únicos de 8 segundos, cada um baseado em uma descrição de recurso diferente, todos no Sora 2 padrão a 720p. Sem orçamento de iteração; você aceita a primeira geração.

Custo: 50 × 8s × $0.10 = $40.00. Adicione um orçamento de iteração de 30% para os clipes que não acertarem de primeira (50 × 0.30 = 15 novas tentativas × 8s × $0.10 = $12). Total: aproximadamente $52.00 para a campanha.

Cenário 3: Um recurso de vídeo gerado pelo usuário em um produto de consumo

Usuários no seu app geram clipes de 6 segundos sob demanda, no Sora 2 padrão a 720p. Uso médio: 1.000 clipes por dia. Você cobra $0.50 por geração e aceita o diferencial de custo como a margem unitária.

Custo por clipe do usuário: 6s × $0.10 = $0.60. Com preço ao usuário de $0.50, o workload dá prejuízo no nível padrão: cada geração custa $0.10 a mais do que o usuário paga. O nível padrão 720p requer preço ao usuário de pelo menos $0.65 para atingir o ponto de equilíbrio antes da sobrecarga de infraestrutura. Em 30.000 clipes por mês: fatura mensal do Sora de $18,000. Este é o tipo de verificação de economia unitária que vale fazer antes de lançar qualquer recurso de vídeo voltado ao usuário.

A conclusão nos três cenários: a geração de vídeo é realmente acessível para workloads de marketing e conteúdo pontual, onde a contagem de iterações é limitada e o custo por ativo final é o que importa. É significativamente mais desafiadora para recursos voltados ao usuário em escala, onde o custo por geração precisa superar o preço pago pelo usuário mais a sobrecarga do produto. Seja explícito sobre qual workload você está precificando antes de se comprometer.

Acesso direto à OpenAI versus acesso via agregador

Com o Sora disponível por múltiplas rotas, a pergunta prática para a maioria das equipes é por qual integrar. A resposta honesta depende do restante da sua stack.

O que é igual

Qualidade de saída, tempo de geração na camada do modelo, parâmetros suportados e preço por segundo são tipicamente idênticos independentemente da rota, já que a maioria dos agregadores repassa os preços da OpenAI em paridade, e o modelo em si é o mesmo modelo. Se você está escolhendo a rota puramente com base na qualidade de saída, a escolha é indiferente.

O que é diferente

  • Faturamento. O acesso direto à OpenAI fatura pela sua conta OpenAI; agregadores faturam por seus próprios sistemas de crédito ou assinatura. Para equipes que já gerenciam faturamento da OpenAI para uso de modelos de texto, a rota direta não adiciona nada novo. Para equipes que rodam workloads multi-provedor (LLMs da Anthropic, modelos de imagem da Black Forest Labs, vídeo do Sora), um agregador consolida tudo isso em uma única fatura.
  • Observabilidade. O dashboard da OpenAI apresenta claramente o uso do Sora em nível de requisição. Os dashboards dos agregadores variam em quão bem lidam especificamente com workloads de geração de vídeo; alguns têm observabilidade voltada a vídeo; outros tratam vídeo como uma chamada de API genérica. Vale conferir antes de se comprometer se observabilidade é prioridade.
  • Compartilhamento dos limites de taxa. No acesso direto à OpenAI, seus limites de taxa do Sora estão atrelados à sua conta e nível. Em um agregador, os limites são agrupados através da base de clientes do agregador em alguns casos, ou atribuídos por cliente em outros. Para workloads de produção de alto volume, pergunte ao agregador como eles tratam a alocação de limites de taxa antes de integrar.
  • Postura geográfica e de conformidade. O acesso direto à OpenAI é processado pela infraestrutura da OpenAI com as opções de residência de dados que a OpenAI fornece. Alguns agregadores estão sediados em jurisdições onde as regras de residência de dados diferem; outros roteiam as requisições pela infraestrutura dos EUA da OpenAI de qualquer forma. Para workloads regulados, isso é decisivo, e é o tipo de coisa que vale pedir ao time de vendas do agregador para formalizar por escrito.

Como a CometAPI se encaixa

CometAPI expõe Sora 2 e Sora 2 Pro ao lado de 500+ outros modelos por trás de um único endpoint compatível com OpenAI, com uma credencial e faturamento unificado. A precificação do Sora via CometAPI acompanha as tarifas por segundo da OpenAI; o valor operacional é consolidar o uso do Sora com o restante do seu tráfego de modelos em uma única fatura. Para equipes que rodam uma carga mista (modelos de texto de múltiplos provedores, geração de imagem e vídeo Sora), este é o argumento central. Para equipes que usam apenas Sora e apenas um ou dois modelos de texto, a economia operacional é menor e o acesso direto à OpenAI é uma escolha defensável.

Considerações de produção

Alguns padrões que valem acertar antes de o Sora chegar perto de tráfego de produção:

  • Tratamento do ciclo de vida de jobs assíncronos. Trate cada geração do Sora como um job de longa duração, não como uma requisição. Persista o ID do job imediatamente na criação; sobreviva a uma reinicialização de servidor sendo capaz de retomar o polling de jobs em andamento; trate o caso em que o job conclui enquanto seu worker está offline. Isso é higiene padrão de sistemas distribuídos, mas muitas vezes é pulado no início porque o Sora é a primeira API assíncrona que a equipe integra.
  • Fallback de webhook. Se a plataforma suporta webhooks para eventos de conclusão (a API da OpenAI suporta), use-os. Webhooks eliminam a necessidade de polling e reduzem tanto a pressão sobre seus limites de taxa quanto o compute desperdiçado de verificações frequentes de status. Polling é o fallback para ambientes que não podem expor um endpoint de webhook.
  • Modos de falha que custam dinheiro. A OpenAI não cobra por gerações que falham, mas conclusões parciais e requisições repetidas que têm sucesso na segunda tentativa incorrerão custo. Em produção, registre o custo de cada retry e alerte se sua taxa de retries exceder o esperado, pois isso geralmente sinaliza um problema de política de conteúdo com os prompts enviados, o que é mais barato corrigir na camada de prompt do que absorver na fatura.
  • Política de conteúdo e implantação em produção. O Sora é limitado pelas políticas de uso da OpenAI, que restringem certas categorias de conteúdo. Para implantações em produção (especialmente voltadas ao usuário, onde o prompt está parcialmente sob controle do usuário), revise a documentação oficial de política de conteúdo da OpenAI e projete controles preventivos a montante. Remeter à política da OpenAI é a referência correta; aquela documentação é a fonte da verdade e muda com mais frequência do que este artigo.

O que construir primeiro

A leitura honesta sobre quais workloads do Sora estão prontos para produção hoje, quais estão no limite e quais são prematuros:

Pronto para produção hoje

Workloads de marketing e conteúdo criativo onde a iteração é limitada e o custo por ativo final é a métrica certa. Vídeos de demo de produto, conteúdo para campanhas em redes sociais, vídeos de destaque para landing pages, material de treinamento interno. A economia funciona, os modos de falha são bem compreendidos, e a história de latência (30–90 segundos para clipes curtos) é aceitável quando o humano no loop é a equipe de conteúdo e não o usuário final.

No limite

Recursos de geração de vídeo voltados ao usuário em que o custo por clipe precisa superar o preço pago pelo usuário. Isso é viável, mas exige economia unitária cuidadosa: limite a duração que os usuários podem solicitar, use Sora 2 padrão a 720p como padrão, cobre um preço que tenha margem sobre o custo por clipe. A onda de apps de geração de vídeo para consumidores no início de 2026 está majoritariamente nessa categoria, e os que têm economia sustentável foram todos deliberados em restringir o que os usuários podem gerar.

Prematuro

Vídeo de longa duração em escala (qualquer coisa acima de 25 segundos, já que esse é o teto atual de duração do Sora), cenários de alto volume em tempo real onde a latência de relógio importa mais do que dólares, e aplicações que esperam controle em nível de frame ou reprodutibilidade baseada em semente. Esses são workloads para revisitar quando a superfície de capacidades do Sora se expandir, não para forçar hoje.

O enquadramento: o Sora 2 está realmente pronto para produção para workloads de conteúdo com um humano no loop. É viável para recursos voltados ao usuário com economia unitária deliberada. É prematuro para vídeo de longa duração e para casos que exigem parâmetros que o Sora ainda não expõe. Construa para o que está pronto hoje; acompanhe o que ainda não está.

Testando na sua carga de trabalho: Todas as variantes Sora 2 e Sora 2 Pro estão disponíveis na CometAPI ao lado dos modelos de texto que você já pode estar usando. O crédito de teste gratuito permite gerar alguns clipes a preço padrão sem qualquer configuração além de apontar seu cliente compatível com a OpenAI para o endpoint da CometAPI.

Pronto para reduzir os custos de desenvolvimento de IA em 20%?

Comece gratuitamente em minutos. Créditos de avaliação gratuita incluídos. Não é necessário cartão de crédito.

Leia Mais