Veo 3.1은 Google의 비디오 생성 모델인 Veo 제품군의 최신 버전입니다. 더욱 풍부한 네이티브 오디오, 향상된 내러티브 및 시네마틱 컨트롤, 다중 이미지 가이드, 그리고 새로운 편집 기본 요소(첫 프레임/마지막 프레임 전환, "요소"/참조 이미지, 장면 확장 워크플로)를 제공합니다. 개발자가 Veo 3.1에 가장 빠르게 접근할 수 있는 방법은 API(소비자용 통합)와 Vertex AI(엔터프라이즈 및 클라우드 워크로드용)입니다.
Veo 3.1 API는 무엇이고 주요 기능은 무엇입니까?
Veo 3.1은 Google에서 개발한 텍스트-이미지-비디오 생성 모델로, 네이티브 오디오(대사, 주변 신호, 음향 효과)를 사용하여 짧고 고품질의 영화 같은 클립을 제작하도록 설계되었습니다. 이번 릴리스는 메시지 전달력 향상, 캐릭터 일관성, 오디오 생성, 그리고 더욱 세부적인 편집 제어 기능(예: 첫 번째 프레임에서 마지막 프레임으로 전환 및 최대 3개의 참조 이미지를 통한 안내)에 중점을 두고 있습니다.
주요 기능(한눈에 보기)
- 텍스트 → 비디오: 내러티브 프롬프트에서 바로 비디오를 생성합니다(대화 및 오디오 포함).
- 이미지 → 비디오: 이미지를 짧은 애니메이션 장면으로 변환합니다. ()
- 참조 이미지("비디오의 재료"): 최대 공급 3 출력물 전체에서 시각적 일관성을 유지하기 위해 이미지(문자, 객체, 스타일)를 사용합니다.
- 첫 번째 및 마지막 프레임 생성: 두 이미지를 연결하는 전환을 만듭니다(모델은 두 이미지 사이에서 자연스럽게 변형되는 프레임을 생성하고 오디오도 일치시킵니다).
- 장면 확장 워크플로: 기존 비디오의 마지막 부분에 새로운 클립을 생성하여 기존 클립을 확장하는 도구(참고: Gemini API와 Vertex 미리 보기의 기능과 지원은 다릅니다. "조건" 섹션을 참조하세요).
- 네이티브 오디오 및 SFX: 모델은 생성된 시각적 이미지와 일치하는 음성, 주변 소리 및 동기화된 효과를 합성할 수 있습니다.
Veo 3.1 API를 어떻게 사용하나요? 전제 조건과 조건은 무엇인가요?
API를 호출하기 전에 무엇이 필요합니까?
- 접근 및 청구: Veo 3.1은 유료 미리보기 버전입니다. Vertex AI가 활성화되고 결제가 설정된 API 키 또는 Google Cloud 프로젝트가 있는지 확인하세요. 미리보기에서 일부 기능 및 모델 변형은 리전 제한이 있습니다.
- 할당량 및 미리보기 제약 조건: 미리보기 모델에는 프로젝트당 요청 속도 제한(예: 미리보기 변형의 경우 10 RPM)과 요청당 비디오 제한이 있는 경우가 많습니다. 계정별 정확한 수치는 Vertex AI/Gemini 문서의 모델 페이지를 확인하세요.
- 입력 자산 및 형식: 텍스트 프롬프트, 단일 또는 여러 이미지에서 생성하거나, 기존 Veo 생성 비디오를 URI를 참조하여 확장할 수 있습니다. 이미지-비디오 워크플로의 경우, 지원되는 형식(엔드포인트에 따라 URL 또는 바이트)으로 이미지를 제공하세요.
- 안전성 및 출처: 생성된 콘텐츠는 Google의 콘텐츠 정책을 준수해야 합니다. 미리보기에서는 워터마크 또는 사용 플래그가 표시될 수 있으므로, 애플리케이션에서 출처 및 콘텐츠 검토 단계를 처리할 준비를 하세요.
어떤 인증 방법이 지원되나요?
- API 키: Gemini에서 호스팅되는 엔드포인트 또는 타사 API 플랫폼 키의 경우 CometAPI를 권장합니다. 코멧API Veo 3.1 API(veo3.1-pro; veo3.1) 통합을 돕기 위해 공식 가격보다 훨씬 낮은 가격을 제공합니다.
- Google Cloud 자격 증명/ADC: Vertex AI의 경우 애플리케이션 기본 자격 증명(서비스 계정/gcloud 인증) 또는 Google Cloud 프로젝트에 연결된 API 키를 사용하세요.
Veo 3.1 API 엔드포인트는 무엇이고 어떤 매개변수가 가장 중요합니까?
간단한 대답: 전화하거나 코멧API API 비디오 생성 엔드포인트(CometAPI 호스팅 액세스용)
v1/chat/completions) . 둘 다 모델, 프롬프트 및 다음을 설명하는 JSON 요청 본문을 사용합니다.video/output구성; 더 큰 비디오 작업은 장기 실행 작업으로 반환됩니다.
일반적인 종료점(예):
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "veo3.1-pro",
"stream": true,
"messages":
}'
일반적인 요청 매개변수(논리적 분석)
- 모델 — 대상 모델 식별자(veo3.1-pro; veo3.1 이름이 나열됨) 모델 참조).
- 프롬프트 / 입력 — 장면을 설명하는 인간 텍스트. 모델 성능에 따라 여러 개의 프롬프트 또는 여러 샷에 대한 설명을 포함할 수 있습니다. 구조화된 프롬프트를 사용하여 카메라 움직임, 시간, 분위기 및 오디오 신호를 제어합니다.
- 이미지 참조 — 1~3개의 이미지 URI 또는 base64 이미지로 객체/문자/스타일을 안내합니다(Veo 3.1은 여러 이미지 참조를 지원합니다).
- 비디오 — 사용할 때 연장 이전 Veo 출력(초기 비디오 URI 전달). 일부 기능은 Veo에서 생성된 비디오에서만 작동합니다.
- 지속 시간 / fps / 해상도 / 종횡비 — 지원되는 길이와 형식에서 선택합니다(미리 보기 모델에는 지원되는 지속 시간과 프레임 속도가 나열되어 있습니다. 예: 일부 미리 보기 문서에서는 4, 6, 8초, 확장 기능을 사용하면 Flow/Studio에서 더 긴 출력을 허용할 수 있음).
고급 사용 패턴과 기술은 무엇입니까?
1) 참조 이미지와 문자 일관성 유지
생성된 여러 샷에서 캐릭터의 모습을 유지하기 위해 최대 3개의 참조 이미지(얼굴/포즈/의상)를 제공합니다. 일반적인 흐름은 다음과 같습니다.
- 참조 이미지를 업로드하거나 인라인 인코딩합니다.
- 전달해 주세요
config.reference_images각 샷을 생성할 때. - 이후 세대 호출에 동일한 이미지를 사용하거나 시드 값과 결합하여 시각적 일관성을 극대화합니다.
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
2) 첫 번째와 마지막 프레임 전환(샷 합성)
image (첫 번째 프레임) + config.last_frame Veo에게 중간 동작을 합성하도록 지시합니다. 이는 영화적 전환에 이상적이며, 자연스러운 시각적 보간과 동기화된 오디오를 생성합니다.
을 제공 첫 번째 프레임 (image)와 마지막 프레임 (lastFrame) 및 Veo 3.1은 두 이미지 사이의 동작을 보간하여 부드러운 전환을 생성합니다(선택 사항인 오디오 포함). cURL(REST) 예시 - 첫 번째 이미지 + 마지막 이미지:
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
3) 장면 확장(여러 세대 연결)
두 가지 패턴이 있습니다.
- API/흐름 접근 방식(미리 보기 기능): 기존 비디오(반환된 비디오 개체 또는 URI)를 다음과 같이 전달합니다.
video=video_to_extend이전 장면과 일관성을 유지하는 후속 클립을 만듭니다. 작업 응답을 사용하여 캡처합니다.video.uri다음 통화에 반영하여 내러티브를 확장하세요. 참고: 플랫폼에 따라 가용성과 동작이 다를 수 있으므로 선택한 플랫폼에서 검증하세요. - 정점 클라우드 패턴: Vertex의 미리보기 모델은 문서 목록 제한이 더 엄격합니다(예: 현재 미리보기는 4/6/8초 세그먼트만 반환). 따라서 1분 길이의 출력을 생성하려면 여러 요청을 연결하여 애플리케이션에서 연결하거나, 가능한 경우 엔진의 공식 장면 확장 도구를 사용해야 합니다. 현재 지원 현황은 Vertex의 "Veo 3.1 미리보기" 페이지를 참조하세요.
을 이전에 Veo에서 생성됨 비디오를 재생하고 스타일과 연속성을 유지하면서 앞으로 확장합니다(초 단위 추가). API는 Veo에서 생성된 비디오 입력을 요구합니다(임의의 MP4 확장자는 지원되지 않을 수 있음). 문서화된 제한까지 최대 7초 홉 단위로 확장할 수 있습니다(Veo 미리보기 제한 적용).
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'
4) 오디오 및 대화 제어
Veo 3.1은 프롬프트에서 네이티브 오디오(음성 및 효과음)를 생성합니다. 유용한 정보:
- 대사를 프롬프트에 넣고(대화를 따옴표로 묶어) 현실적인 립싱크를 장려하세요.
- SFX와 분위기를 형성하기 위해 오디오 설명자("좌우로 들리는 부드러운 발소리", "흐릿한 천둥 소리")를 추가합니다.
- 시드 값을 사용하여 테스트 실행 전반에 걸쳐 동일한 오디오/비주얼 결과를 재현합니다.
5) 테스트를 위한 결정론적 출력(시드)
CI 또는 A/B 테스트를 위해 반복 가능한 출력이 필요한 경우 다음을 제공하십시오. seed 매개변수(uint32). 프롬프트 또는 참조 이미지를 변경해도 결과는 여전히 변경됩니다. 시드는 반복성을 보장합니다. 만 다른 모든 것이 동일할 때.
6) 비용 및 성능 최적화
- 더 적은 수의 더 큰 작업 배치: 허용되는 경우 설정
sampleCount설정 오버헤드를 줄이기 위해 하나의 요청(1~4)에서 여러 후보 비디오를 생성합니다. () - 참조 이미지 캐시 및 시드 재사용 재현성을 위해 대용량 바이너리를 다시 업로드하지 않도록 합니다.
- 클라우드 스토리지 출력 사용 (Vertex) 요청 본문에서 원시 바이트가 반환되는 것을 방지하기 위해 대용량 출력 크기에 사용합니다.
7) 다른 Gemini 모델과의 다단계 파이프라인
유용한 파이프라인: 정지 이미지 생성기(예: Gemini 이미지 모델)를 사용하여 자산을 생성합니다. → 최상의 이미지를 전달합니다. image + referenceImages Veo 3.1로 → 생성된 내레이션을 위해 텍스트 모델을 사용하여 오디오/대화 프롬프트를 반복합니다. Gemini 문서에는 이미지 생성과 Veo 호출을 연결하는 예시가 명시적으로 나와 있습니다.
실용적인 팁, 함정 및 모범 사례
- 씨앗을 사용하세요 실행 간에 결정적이고 반복 가능한 출력이 필요한 경우(동일한 프롬프트 + 동일한 참조 + 동일한 시드 → 동일한 세대).
- 참조 이미지의 일관성 유지: 동일한 크롭, 동일한 얼굴 각도, 일관된 의상/배경은 모델의 정체성과 스타일을 유지하는 데 도움이 됩니다. 연속성을 유지하기 위해 동일한 세 장의 이미지를 여러 샷에 걸쳐 재사용합니다.
- 프로덕션을 위해 GCS URI를 선호합니다.: Cloud Storage에 이미지와 출력을 저장하면 base64 전송 크기 제한을 피할 수 있고 체이닝/확장이 간소화됩니다.
- 전환 및 오디오를 명확하게 설명합니다.: 첫 번째/마지막 전환의 경우, 더 나은 동기화된 오디오를 위해 프롬프트에 카메라 움직임, 템포, SFX/음성 신호를 추가합니다.
- 먼저 짧은 루프를 테스트하세요: 프롬프트, 시드, 참조 이미지를 조정하면서 짧은 지속 시간(4~8초)으로 반복한 다음, 더 긴 장면에 대한 확장을 체인으로 연결합니다.
- 정확한 필드 이름 확인: SDK는 다음을 사용할 수 있습니다.
reference_images(뱀 케이스),referenceImages(camelCase) 또는 중첩image개체content/gcsUri사용하는 버전의 정확한 속성 이름은 SDK 문서나 Vertex 모델 스키마에서 확인하세요.
Veo 3.1의 가격은 얼마이며, 어떻게 청구되나요?
Veo 3.1이 청구됩니다 생성된 비디오의 초당, 그리고 Google은 여러 변형을 노출합니다(예: Standard 및 빠른) 초당 요금이 다릅니다. 게시된 개발자 가격은 유료 계층 요금의 예를 보여줍니다. Veo 3.1 Standard의 경우 초당 0.40** 및 **Veo 3.1 Fast의 경우 초당 0.15Gemini 가격 페이지에는 비디오가 성공적으로 생성되었을 때만 요금이 청구된다고 적혀 있습니다(실패한 시도는 청구되지 않을 수 있음).
베오 3.1 API CometAPI 가격 책정
| veo3.1 | 0.4000 |
| 베오3.1-프로 | 2.0000 |
결론 - Veo 3.1이 지금 개발자에게 중요한 이유
Veo 3.1은 AI 비디오 생성에 있어 분명한 점진적인 도약입니다. 더욱 풍부한 네이티브 오디오, 참조 이미지 가이드, 그리고 새로운 편집 기본 기능을 통해 스토리텔링, 사전 시각화, 그리고 크리에이티브 앱에 더욱 강력한 옵션을 제공합니다. 모델의 정확한 기능은 엔드포인트와 프리뷰 빌드 간에 약간씩 다릅니다(예: CometAPI와 gemini의 버전 차이). 따라서 사용하려는 모델 변형을 테스트하고 검증해야 합니다. 이 가이드의 예시는 프로토타입 제작 및 프로덕션을 위한 실질적인 시작점을 제공합니다.
이용 방법 베오 3.1 API API
CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.
개발자는 액세스할 수 있습니다 베오 3.1 API CometAPI를 통해 최신 모델 버전 공식 웹사이트에서 항상 업데이트됩니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.
출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !


