Cách thêm giọng nói và âm thanh vào video Midjourney

CometAPI
AnnaDec 2, 2025
Cách thêm giọng nói và âm thanh vào video Midjourney

Bước tiến của Midjourney vào lĩnh vực sản xuất video thật thú vị: nó biến ảnh tĩnh thành các clip hoạt hình ngắn, có thể lặp lại, mở ra cánh cửa cho những câu chuyện và nội dung chuyển động. Nhưng cho đến khi Midjourney cung cấp các bản nhạc âm thanh được trau chuốt tích hợp sẵn (nếu có), các nhà sáng tạo phải ghép âm thanh vào đầu ra video không tiếng động bằng cách sử dụng kết hợp các công cụ âm thanh AI và các trình chỉnh sửa cổ điển. Bài viết này giải thích bối cảnh hiện tại (công cụ, quy trình làm việc, mẹo và các quy định pháp lý), đồng thời cung cấp cho bạn quy trình làm việc từng bước, sẵn sàng cho việc sản xuất để thêm giọng nói và âm thanh vào các clip video của Midjourney.

“Video Midjourney” thực chất là gì và tại sao lại cần có âm thanh ngoài?

Tính năng video của Midjourney hiện đang tạo ra những gì

Khả năng video của Midjourney chuyển đổi hình ảnh được tạo hoặc tải lên thành một clip hoạt hình ngắn (ban đầu 5 giây, có thể kéo dài theo từng phần) tập trung vào chuyển động và chuyển động của máy quay/chủ thể thay vì âm thanh đồng bộ hoặc lời thoại nhép. Công cụ này được thiết kế để tạo ra các vòng lặp ngắn giàu hình ảnh, chứ không phải là những câu chuyện nghe nhìn hoàn chỉnh. Điều này có nghĩa là mọi video Midjourney bạn xuất ra sẽ không có tiếng và phải được ghép nối với âm thanh trong quá trình hậu kỳ để trở thành một hình ảnh động.

Những quy tắc và hạn chế cơ bản của video Midjourney là gì?

Tính năng video của Midjourney chuyển đổi hình ảnh ban đầu thành một clip hoạt hình ngắn (mặc định 5 giây), với các tùy chọn kéo dài thời lượng lên đến 21 giây, chọn chuyển động "Thấp" hoặc "Cao", lặp lại và thay đổi kích thước hàng loạt. Video có thể tải xuống dưới dạng .mp4 và Midjourney phơi bày một --video tham số (và --motion low|high, --loop, --end, --bs #, --raw --end--bs các tham số— đang ở trong Tài liệu chính thức của Midjourney) cho Discord hoặc lời nhắc API. Độ phân giải là SD (480p), với HD (720p); kích thước lô và cài đặt chuyển động ảnh hưởng đến thời gian và chi phí GPU.

Bài học thực tế: Các đoạn clip giữa hành trình khá ngắn (5–21 giây), vì vậy hãy lên kế hoạch tường thuật và âm thanh sao cho phù hợp — hoặc chuẩn bị ghép nhiều đoạn clip. Tải xuống Video thô (.mp4) từ trang Tạo của Midjourney để có chất lượng tốt nhất khi làm việc trong giai đoạn hậu kỳ.

Tại sao bạn nên thêm giọng nói, âm nhạc và SFX

Thêm âm thanh:

  • Cung cấp bối cảnh và lời kể (lồng tiếng), giúp hình ảnh trừu tượng có tính truyền đạt.
  • Thiết lập tông điệu cảm xúc (lựa chọn âm nhạc) và cải thiện khả năng ghi nhớ của người xem.
  • Đưa hình ảnh AI vào bối cảnh thực tế (thiết kế âm thanh, Foley, nền xung quanh).
  • Tạo nội dung sẵn sàng cho nền tảng TikTok, YouTube hoặc các video clip cần có âm thanh.

Quy trình làm việc đơn giản nhất để thêm giọng nói và âm thanh vào video MidJourney là gì?

Công thức nhanh trong một đoạn văn

  1. Tạo video trực quan hoặc khung hình động trong MidJourney (Thư viện ảnh → Tính năng hoạt hình/Video).
  2. Xuất/tải xuống video đã tạo (MP4/GIF).
  3. Tạo giọng nói bằng TTS của OpenAI (ví dụ: gpt-4o-mini-tts hoặc các mẫu TTS khác) và xuất dưới dạng WAV/MP3.
  4. Tạo nhạc nền và SFX bằng các công cụ âm thanh AI (các công cụ như MM Audio, Udio hoặc Runway có thể hỗ trợ).
  5. Căn chỉnh và trộn trong DAW (Reaper, Audacity, Logic hoặc chỉ cần sử dụng ffmpeg để trộn trực tiếp).
  6. Tùy chọn chạy AI lip-sync nếu video có khuôn mặt và bạn muốn miệng khớp với lời nói (Wav2Lip, Sync.so và các dịch vụ thương mại).

Tại sao sự tách biệt này (hình ảnh so với âm thanh) lại quan trọng

MidJourney tập trung vào sáng tạo hình ảnh và thiết kế chuyển động; thiết kế âm thanh là một tập hợp kỹ thuật khác (tạo giọng nói, thiết kế âm thanh, đồng bộ hóa). Việc phân chia trách nhiệm giúp bạn kiểm soát tốt hơn nhiều—đặc điểm giọng nói, nhịp độ, thiết kế âm thanh và master—mà không cần phải vật lộn với bộ tạo hình ảnh.

Tôi nên tạo lời nhắc Midjourney cho video như thế nào?

Bạn có thể tạo video từ bất kỳ hình ảnh nào trong thư viện của mình hoặc bằng cách dán URL hình ảnh được lưu trữ công khai vào thanh Imagine và thêm --video tham số (trên Discord hoặc API). Sau khi tạo, bạn có thể tải xuống MP4 (phiên bản Raw hoặc Social) trực tiếp từ trang Midjourney Create hoặc từ Discord.

Một ví dụ đơn giản theo phong cách Discord sử dụng hình ảnh đã tải lên làm khung hình bắt đầu:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Ghi chú:

  • Đặt URL hình ảnh ở đầu để sử dụng làm khung hình bắt đầu.
  • Thêm --video và một lá cờ chuyển động (--motion low or --motion high).
  • Sử dụng --bs 1 nếu bạn chỉ cần một đầu ra duy nhất (tiết kiệm thời gian GPU).
  • Sử dụng --raw nếu bạn muốn ít cách điệu và chuyển động mang tính xác định hơn.

Nếu video ngắn hơn lời tường thuật mong muốn, bạn sẽ kéo dài video trong Midjourney (bạn có thể kéo dài tối đa +4 giây cho mỗi lần kéo dài, tổng cộng tối đa 21 giây) hoặc cắt/lặp lại âm thanh cho phù hợp. Ghi lại thời lượng chính xác (giây + mili giây) để bạn có thể căn chỉnh lời tường thuật và hiệu ứng âm thanh. Midjourney cung cấp tùy chọn "Tải xuống video thô" trên trang Tạo và trong Discord; hãy sử dụng tùy chọn này làm tệp gốc.

Tôi nên cân nhắc mô hình TTS OpenAI nào và tại sao?

Hiện tại có những tùy chọn TTS nào?

OpenAI cung cấp nhiều tùy chọn TTS: theo lịch sử tts-1 / tts-1-hd và có thể lái được mới hơn gpt-4o-mini-tts. Các gpt-4o-mini-tts mô hình nhấn mạnh khả năng điều khiển (bạn có thể chỉ dẫn giọng điệu, nhịp độ, cảm xúc) và được thiết kế để tạo ra giọng nói linh hoạt, biểu cảm; tts-1tts-1-hd vẫn là lựa chọn tốt cho TTS chất lượng cao, truyền thống hơn. Sử dụng gpt-4o-mini-tts khi bạn muốn kiểm soát làm thế nào văn bản được nói (phong cách, cảm xúc) và tts-1-hd để đạt được độ trung thực tối đa khi việc kiểm soát phong cách ít quan trọng hơn. penAI đã tiếp tục lặp lại các mô hình âm thanh (thông báo năm 2025 mở rộng khả năng phiên âm và giọng nói), vì vậy hãy chọn mô hình cân bằng giữa chi phí, chất lượng và kiểm soát cho dự án của bạn. API mô hình tts cũng được tích hợp vào Sao chổiAPI.

Có bất kỳ cảnh báo hoặc hạn chế nào về sản xuất hiện tại không?

gpt-4o-mini-tts Đôi khi có thể xuất hiện hiện tượng không ổn định trên các tệp âm thanh dài hơn (tạm dừng, dao động âm lượng), đặc biệt là sau khoảng 1.5–2 phút. Đối với các clip Midjourney ngắn (dưới khoảng 20–30 giây), điều này hiếm khi là vấn đề, nhưng đối với phần tường thuật dài hơn hoặc phần thuyết minh dài, hãy kiểm tra và xác nhận. Nếu bạn mong đợi phần tường thuật dài hơn, hãy ưu tiên tts-1-hd hoặc chia văn bản thành các đoạn ngắn hơn và khâu chúng lại cẩn thận.

Công cụ tùy chọn khác

Nhạc nền và hiệu ứng âm thanh: Các công cụ như MM Audio (công cụ cộng đồng), Udio, MagicShot hoặc Runway có thể nhanh chóng tạo nhạc nền và hiệu ứng âm thanh phù hợp với ngữ cảnh; các bài viết và hướng dẫn cộng đồng cho thấy người sáng tạo cách kết hợp những yếu tố này vào video MidJourney. Để kiểm soát chất lượng sản xuất, hãy tạo các đoạn nhạc nền (nhạc nền + nhạc nền) và xuất chúng để phối trộn.

Đồng bộ hóa môi và hoạt ảnh khuôn mặt: Nếu video có nhân vật hoặc cận cảnh khuôn mặt và bạn muốn chuyển động miệng chân thực, hãy cân nhắc Wav2Lip (mã nguồn mở) hoặc các API thương mại như Sync.so, Synthesia hoặc các dịch vụ đồng bộ hóa môi khác. Các công cụ này phân tích âm thanh để tạo ra hình dạng miệng khớp với âm vị và áp dụng chúng vào khuôn mặt hoặc chuỗi khung hình mục tiêu.

Làm thế nào để tạo tệp giọng nói bằng TTS (mã thực tế) của OpenAI?

Dưới đây là hai ví dụ thực tế về định dạng lệnh gọi CometAPI tạo ra tệp MP3 (hoặc WAV) bằng điểm cuối TTS của OpenAI. Bạn có thể điều chỉnh tên giọng nói và cờ phát trực tuyến theo tài khoản CometAPI và bản cập nhật SDK của mình.

⚠️ Thay thế YOUR_CometAPI_API_KEY với khóa API của bạn. Hãy thử nghiệm trên một cụm từ ngắn trước. Tham khảo
Mô hình âm thanh DOC trong CometAPI.

Ví dụ A — nhanh curl (dòng lệnh)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Nếu bạn thích WAV:

  • Thay đổi tên tệp đầu ra thành narration.wavvà (nếu có) chỉ định tham số định dạng âm thanh trong nội dung (một số SDK cho phép format: "wav").

Tại sao điều này hoạt động: Điểm cuối TTS chấp nhận văn bản và trả về tệp âm thanh nhị phân mà bạn có thể lưu và ghép với video sau. Sử dụng voiceinstructions (nếu có) để điều chỉnh ngữ điệu và phong cách.

Ví dụ B: Python sử dụng yêu cầu

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Làm thế nào để kết hợp âm thanh TTS với tệp video MidJourney?

Xuất video từ MidJourney

Tính năng Video/Hoạt hình của MidJourney cho phép bạn tạo MP4/GIF hoặc xuất video từ Thư viện của mình—sử dụng chức năng “Hoạt hình” hoặc tùy chọn xuất thư viện để lấy tệp cục bộ.

Hợp nhất đơn giản với ffmpeg

Nếu bạn đã có video.mp4 (không có hoặc giữ chỗ âm thanh) và voiceover.wav (hoặc mp3), sử dụng ffmpeg để hợp nhất:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Ghi chú:

  • -shortest dừng ở luồng ngắn hơn; bỏ qua nếu bạn muốn video tiếp tục phát lâu hơn âm thanh (hoặc ngược lại).
  • -c:v copy giữ luồng video không thay đổi.
  • -c:a aac mã hóa âm thanh thành AAC (tương thích với MP4).
  • Sử dụng -af "volume=... bộ lọc để điều chỉnh âm lượng.
  • Để hoàn thiện một cách chuyên nghiệp, hãy mở các gốc âm thanh trong DAW để điều chỉnh thời gian, EQ và độ nén.

Cắt hoặc đệm âm thanh cho đúng độ dài video

Nếu âm thanh dài hơn video và bạn muốn cắt chính xác:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Nếu âm thanh ngắn hơn và bạn muốn nhạc nền lấp đầy phần còn lại hoặc lặp lại giọng nói, hãy sử dụng adelay, apadhoặc trộn với nhạc nền. Ví dụ: lặp lại lời tường thuật để khớp với clip dài 20 giây (thường không được khuyến khích dùng giọng nói):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Cách bù âm thanh (nếu cần bắt đầu tường thuật sau)

Nếu lời tường thuật của bạn phải bắt đầu sau một khoảng lặng ngắn hoặc bạn có nhiều phân đoạn để đặt ở các vị trí bù trừ, hãy sử dụng -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 trì hoãn đầu vào thứ hai 0.5 giây.

Dùng cho nhiều bản âm thanh hoặc sử dụng vị trí đặt rất chính xác -filter_complex với adelay sau khi Tạo TTS thành các phân đoạn nhỏ (một câu cho mỗi tệp):

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Đây adelay mất vài mili giây (2500 ms = 2.5 giây), do đó bạn có thể căn chỉnh văn bản theo tín hiệu trực quan một cách chính xác.

Giữ lời tường thuật ngắn gọn và tập trung vào từng cảnh: Vì các clip của Midjourney thường ngắn và được cách điệu, hãy cố gắng tạo một đoạn mở đầu súc tích (khoảng 5–15 giây) phù hợp với nhịp độ của video. Chia văn bản thành các câu ngắn gọn, kết hợp với các cảnh quay trực quan hoặc tín hiệu chuyển động.

Cách kết hợp nhạc nền + lời tường thuật + hiệu ứng âm thanh

Sử dụng filter_complex để trộn nhiều đầu vào âm thanh và điều khiển âm lượng. Ví dụ:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Điều này kết hợp lời kể chuyện (narration.mp3) và âm nhạc (music.mp3) trong khi đặt mức nhạc thấp để nó nằm dưới giọng nói. Bạn cũng có thể sử dụng hiệu ứng dynamic ducking (làm nhạc mờ dần khi lời tường thuật được phát) thông qua bộ lọc sidechain hoặc chỉnh sửa trong DAW để có hiệu ứng mờ dần chính xác.

Chỉnh sửa nâng cao

Kịch bản và nhịp độ

  • Viết một kịch bản chặt chẽ và đánh dấu các tín hiệu trực quan (mã thời gian hoặc số khung hình) để đầu ra TTS phù hợp với những thay đổi trong cảnh.
  • Sử dụng câu ngắn để có nhịp điệu tự nhiên hơn; nếu bạn cần đọc dài, hãy chèn các khoảng dừng có chủ đích hoặc chia thành nhiều lần gọi TTS.

Phù hợp với chuyển động, cường độ và kết cấu

  • Sử dụng hiệu ứng âm thanh tạm thời để làm nổi bật các cảnh quay hoặc chuyển động của máy quay.
  • Đối với chuyển động Midjourney chậm rãi, mang tính hội họa (--motion low), ưa chuộng không khí tinh tế và đuôi vang dài.
  • Đối với hành động cao (--motion high), sử dụng hiệu ứng âm thanh mạnh mẽ, âm nhạc phù hợp với nhịp độ và hiệu ứng vang ngắn.

Phong cách giọng nói chỉ đạo

Sử dụng lời nhắc hướng dẫn để chỉ đạo gpt-4o-mini-tts - ví dụ., "instructions": "Calm, conversational, slight warmth, medium speed" hoặc bao gồm hướng dẫn đó như một phần của nội dung văn bản. Ví dụ:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Hãy cẩn thận: tên tham số chính xác sẽ khác nhau tùy theo phiên bản SDK — hãy kiểm tra các trường mà SDK của bạn hỗ trợ.

Mẹo thiết kế âm thanh

  • Thêm một bản nhạc nền có âm lượng thấp và thêm sidechain hoặc duck trong khi phát giọng nói.
  • Sử dụng hiệu ứng âm thanh ngắn, hiệu ứng nổi hoặc hiệu ứng hình ảnh động phù hợp với chuyển cảnh. Giữ hiệu ứng âm thanh ngắn gọn và rõ nét.
  • Chuẩn hóa giọng nói (-1 dBFS) và nén nhẹ (tỷ lệ 2:1) để có âm lượng đồng đều trên mọi nền tảng.
  • Đối với nền tảng mạng xã hội, hãy mã hóa video cuối cùng bằng âm thanh AAC-LC và video H.264 để tương thích.

Tôi có thể làm cho các nhân vật trong video MidJourney "nói" (hát nhép) theo giọng nói được tạo ra không?

Có—hãy sử dụng mô hình đồng bộ hóa môi để ánh xạ âm vị từ âm thanh TTS sang khung chuyển động miệng. Hai cách tiếp cận phổ biến là:

Sử dụng các công cụ mở như Wav2Lip (cục bộ hoặc lưu trữ)

Wav2Lip căn chỉnh âm thanh nói theo chuyển động của miệng và có thể chạy cục bộ hoặc thông qua GUI được lưu trữ. Quy trình làm việc điển hình:

  1. Xuất video hoặc một loạt khung hình (chuỗi hình ảnh) từ MidJourney.
  2. Tạo tệp giọng nói (OpenAI TTS).
  3. Chạy Wav2Lip để xuất video mới có hình dạng miệng khớp với âm thanh.

Wav2Lip là giải pháp tuyệt vời để căn chỉnh miệng theo tỷ lệ 1:1 và là mã nguồn mở; bạn có thể cần một số xử lý hậu kỳ để hoàn thiện hình ảnh.

Sử dụng API thương mại để đồng bộ hóa môi một bước

Các dịch vụ như Sync.so, Synthesia và các dịch vụ khác cung cấp các quy trình API/GUI xử lý cả giọng nói và đồng bộ hóa/lồng tiếng, đôi khi bao gồm cả lồng tiếng đa ngôn ngữ. Chúng có thể nhanh hơn và ít kỹ thuật hơn, nhưng là dịch vụ trả phí và có thể hạn chế khả năng kiểm soát chi tiết.

Ghi chú thực tế về chủ nghĩa hiện thực

  • Sự chân thực hoàn hảo thường đòi hỏi những biểu cảm nhỏ, chớp mắt và chuyển động đầu—một số dịch vụ đồng bộ hóa môi tự động thêm những điều này; một số khác yêu cầu phải điều chỉnh thủ công.
  • Nếu các nhân vật được cách điệu (không giống ảnh thật), các lỗi nhỏ về đồng bộ môi sẽ ít bị chú ý hơn; đối với cảnh cận cảnh, hãy đầu tư thời gian vào quy trình chỉnh sửa khuôn mặt + DAW.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Sử dụng Video MidJourney trong CometAPI

Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp API giữa hành trình và API Video Midjourney, Chào mừng bạn đến đăng ký và trải nghiệm CometAPI. .Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API Để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. CometAPI hỗ trợ độ phân giải SD 480P và HD 720P.

Phương pháp gọi: Sử dụng tham số videoType=vid_1.1_i2v_720.

Video Midjourney V1thế hệ: Các nhà phát triển có thể tích hợp tạo video thông qua RESTful API. Cấu trúc yêu cầu điển hình (minh họa)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Mô hình âm thanh

Các nhà phát triển có thể truy cập âm thanh GPT 4o và tts-1 thông qua CometAPI, phiên bản mẫu mới nhất (điểm cuối:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến hướng dẫn API âm thanh để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Kết luận

Việc thêm giọng nói và âm thanh vào video Midjourney rất đơn giản: tạo một clip Midjourney ngắn, tổng hợp lời tường thuật ngắn với TTS có thể điều khiển của OpenAI, sau đó kết hợp và chỉnh sửa bằng ffmpeg. Mới gpt-4o-mini-tts mô hình cung cấp cho bạn khả năng kiểm soát phong cách mạnh mẽ, trong khi Midjourney --video quy trình làm việc tạo ra các hình ảnh động ngắn gọn — hoàn hảo cho công việc xã hội, nguyên mẫu hoặc ý tưởng.

SHARE THIS BLOG

500+ Mô hình trong Một API

Giảm giá lên đến 20%