Как добавить голос и звук в видео Midjourney

CometAPI
AnnaDec 2, 2025
Как добавить голос и звук в видео Midjourney

Переход Midjourney к созданию видео впечатляет: он превращает статичные изображения в короткие зацикленные анимированные клипы, открывая путь к повествованию и созданию контента с движением. Но пока Midjourney не предоставит встроенные, отточенные аудиодорожки (если это вообще когда-либо произойдет), создателям придется накладывать аудио на беззвучный видеоконтент, используя сочетание инструментов на базе ИИ и классических редакторов. В этой статье описывается текущая ситуация (инструменты, рабочие процессы, советы и юридические ограничения), а также предлагается пошаговый, готовый к производству рабочий процесс добавления голоса и звука в видеоклипы Midjourney.

Что такое «видео Midjourney» и зачем ему нужен внешний звук?

Что в настоящее время производит видеоматериал Midjourney

Видеовозможности Midjourney преобразуют сгенерированное или загруженное изображение в короткий анимированный клип (первоначальная продолжительность 5 секунд, с возможностью постепенного увеличения), в котором акцент делается на движении и перемещении камеры/объекта, а не на синхронизированном звуке или диалоге с синхронизацией губ. Инструмент предназначен для создания визуально насыщенных коротких циклов, а не законченных аудиовизуальных историй. Это означает, что каждое экспортируемое видео Midjourney будет беззвучным и должно быть дополнено звуком на этапе постобработки, чтобы превратиться в нечто большее, чем просто движущееся изображение.

Каковы основные правила и ограничения видео Midjourney?

Функция видео Midjourney преобразует исходное изображение в короткий анимированный клип (по умолчанию 5 секунд) с возможностью увеличения общей продолжительности до 21 секунды, выбора режима «Низкая» или «Высокая» динамика, циклического воспроизведения и изменения размера пакета. Видео можно загрузить как .mp4 и Midjourney раскрывает --video параметр (и --motion low|high, --loop, --end, --bs #, --raw --end и --bs параметры — находятся в Официальные документы Midjourney) для запросов Discord или API. Разрешение — SD (480p), HD (720p); размеры пакетов и настройки движения влияют на время и стоимость обработки графическим процессором.

Практический вывод: Ролики в середине фильма короткие (5–21 с), поэтому планируйте дикторский текст и аудио так, чтобы они вписывались в этот формат, или будьте готовы склеить несколько роликов. Загрузите Необработанное видео (.mp4) со страницы «Создание» Midjourney для достижения наилучшего качества при работе на этапе постобработки.

Почему стоит добавить голос, музыку и звуковые эффекты

Добавление аудио:

  • Обеспечивает контекст и повествование (закадровый голос), делая абстрактные визуальные образы коммуникативными.
  • Задает эмоциональный тон (выбор музыки) и улучшает удержание зрителей.
  • Обеспечивает реалистичность визуальных эффектов ИИ (звуковой дизайн, эффект Фоли, фоновые кровати).
  • Подготавливает контент для платформ TikTok, YouTube или роликов, где важен звук.

Какой самый простой рабочий процесс добавления голоса и звука в видео MidJourney?

Быстрый рецепт в один абзац

  1. Создавайте визуальное видео или анимированные кадры в MidJourney (Галерея → Анимация / Функции видео).
  2. Экспортируйте/скачивайте готовое видео (MP4/GIF).
  3. Создавайте закадровый голос с помощью TTS от OpenAI (например, gpt-4o-mini-tts или другие модели TTS) и экспортировать как WAV/MP3.
  4. Создавайте фоновую музыку и звуковые эффекты с помощью аудиоинструментов на базе ИИ (в этом вам могут помочь такие инструменты, как MM Audio, Udio или Runway).
  5. Выровняйте и смешайте в DAW (Reaper, Audacity, Logic или просто используйте ffmpeg для прямого слияния).
  6. При необходимости можно запустить синхронизацию губ с помощью ИИ, если видео содержит лица и вы хотите, чтобы рот соответствовал речи (Wav2Lip, Sync.so и коммерческие сервисы).

Почему это разделение (визуальное и аудио) имеет значение

MidJourney фокусируется на визуальном творчестве и дизайне движения; аудиодизайн — это другой технический стек (генерация речи, аудиодизайн, синхронизация). Разделение обязанностей даёт вам гораздо больше контроля — озвучивание, темп, звуковой дизайн и мастеринг — без необходимости бороться с визуальным генератором.

Как создать подсказку Midjourney для видео?

Вы можете создавать видео из любого изображения в вашей галерее или вставив URL-адрес общедоступного изображения в панель Imagine и добавив --video параметр (в Discord или API). После генерации вы можете скачать MP4 (версию Raw или Social) непосредственно со страницы Midjourney Create или из Discord.

Простой пример в стиле Discord, в котором в качестве начального кадра используется загруженное изображение:

<your_image_url> cinematic slow pan across a neon city at dusk, vignette, shallow depth of field --video --motion high --bs 1 --raw

Примечание:

  • Поместите URL-адрес изображения в начало, чтобы использовать его в качестве начального кадра.
  • Добавить --video и флаг движения (--motion low or --motion high).
  • Используйте --bs 1 если вам нужен только один выход (экономит время графического процессора).
  • Используйте --raw если вам нужно меньше стилизации и больше детерминированного движения.

Если видео короче желаемого озвучивания, вы либо удлините его в Midjourney (можно удлинить до +4 секунд на каждое расширение, всего до 21 секунды), либо обрежьте/зациклите аудио. Запишите точную длительность (секунды + миллисекунды), чтобы выровнять озвучивание и звуковые эффекты. Midjourney предлагает функцию «Загрузить необработанное видео» на странице создания и в Discord; используйте её в качестве исходного файла.

Какие модели OpenAI TTS следует рассмотреть и почему?

Какие варианты TTS доступны сейчас?

OpenAI предлагает несколько вариантов TTS: исторически сложилось так, tts-1 / tts-1-hd и более новый управляемый gpt-4o-mini-tts, gpt-4o-mini-tts модель делает акцент на управляемости (можно задать тон, темп, эмоции) и предназначена для гибкой, выразительной генерации голоса; tts-1 и tts-1-hd остаются сильным выбором для высококачественных, более традиционных систем синтеза речи. Используйте gpt-4o-mini-tts когда вы хотите контролировать это текст произносится (стиль, атмосфера), и tts-1-hd для максимальной точности, когда управление стилем не так важно. PenAI продолжает совершенствовать аудиомодели (объявления в 2025 году расширили возможности распознавания речи и транскрипции), поэтому выбирайте модель, которая обеспечивает баланс стоимости, качества и контроля для вашего проекта. API-интерфейсы моделей TTS также интегрированы в CometAPI.

Есть ли какие-нибудь производственные оговорки или текущие ограничения?

gpt-4o-mini-tts Иногда может наблюдаться нестабильность в длинных аудиофайлах (паузы, колебания громкости), особенно продолжительностью более 1.5–2 минут. Для коротких клипов Midjourney (менее 20–30 секунд) это редко встречается, но для более длинных закадровых текстов или длинных закадровых текстов необходимо протестировать и проверить. Если вы ожидаете более длинного закадрового текста, предпочитайте tts-1-hd или разбить текст на более короткие фрагменты и аккуратно сшить их.

Другой вариант инструмента

Фоновая музыка и звуковые эффекты: Такие инструменты, как MM Audio (инструменты сообщества), Udio, MagicShot или Runway, позволяют быстро создавать подходящую фоновую музыку и контекстно-зависимые звуковые эффекты; в темах сообщества и обучающих материалах показано, как создатели интегрируют их в видео MidJourney. Для управления на уровне производства можно создавать стемы (музыка + эмбиент) и экспортировать их для микширования.

Синхронизация губ и анимация лица: Если в видео есть персонажи или лица крупным планом, и вам нужна реалистичная мимика, обратите внимание на Wav2Lip (с открытым исходным кодом) или коммерческие API, такие как Sync.so, Synthesia или другие сервисы синхронизации губ. Эти инструменты анализируют аудио, чтобы создать формы рта, соответствующие фонемам, и применять их к целевому лицу или последовательности кадров.

Как создать голосовой файл с помощью TTS OpenAI (практический код)?

Ниже приведены два практических примера формата вызова CometAPI, которые генерируют MP3 (или WAV) с использованием конечной точки OpenAI TTS. Вы можете настроить имена голосов и флаги потоковой передачи в соответствии с вашей учётной записью CometAPI и обновлениями SDK.

⚠️ Заменить YOUR_CometAPI_API_KEY С вашим ключом API. Сначала протестируйте на короткой фразе. См.
Аудиомодели DOC в CometAPI.

Пример А — быстрый curl (командная строка)

curl -s -X POST "https://api.cometapi.com/v1/audio/speech" \
  -H "Authorization: Bearer $YOUR_CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "voice": "alloy",
    "input": "Welcome to our neon city demo. This clip demonstrates motion and narration synced for social media."
  }' \
  --output narration.mp3

Если вы предпочитаете WAV:

  • Измените имя выходного файла на narration.wavи (если доступно) укажите параметр аудиоформата в теле (некоторые SDK позволяют format: "wav").

Почему это работает: Конечная точка TTS принимает текст и возвращает двоичный аудиофайл, который можно сохранить и позже объединить с видео. voice и instructions (где возможно) для управления просодией и стилем.

Пример Б: Python с использованием запросов

import os, requests

API_KEY = os.environ
text = "This is a sample TTS output for your MidJourney video."

resp = requests.post(
    "https://api.cometapi.com/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json",
    },
    json={
        "model": "gpt-4o-mini-tts",
        "voice": "alloy",
        "input": text,
        "format": "mp3"
    },
    stream=True,
)

resp.raise_for_status()
with open("voiceover.mp3", "wb") as f:
    for chunk in resp.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
print("Saved voiceover.mp3")

Как объединить TTS-аудио с видеофайлом MidJourney?

Экспортируйте видео из MidJourney

Функции видео/анимации MidJourney позволяют создавать файлы MP4/GIF или экспортировать видео из галереи — используйте функцию «Анимация» или параметры экспорта из галереи, чтобы получить локальный файл.

Простое слияние с ffmpeg

Если у вас уже есть video.mp4 (без звука или с заглушкой) и voiceover.wav (или mp3), используйте ffmpeg для слияния:

# Replace or add audio, re-encode audio to AAC; keep video stream as-is

ffmpeg -i video.mp4 -i voiceover.wav -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 -shortest -b:a 192k final_video.mp4

Примечание:

  • -shortest останавливается на более коротком потоке; пропустите, если хотите, чтобы видео воспроизводилось дольше, чем аудио (или наоборот).
  • -c:v copy сохраняет видеопоток неизменным.
  • -c:a aac кодирует аудио в формат AAC (совместимый с MP4).
  • Используйте -af "volume=... фильтры для согласования громкости.
  • Для профессиональной доработки откройте аудиодорожки в DAW, чтобы настроить синхронизацию, эквалайзер и компрессию.

Обрезать или дополнить аудио до нужной длины видео

Если аудио длиннее видео и вы хотите точно обрезать:

ffmpeg -i narration.mp3 -ss 0 -to 00:00:05 -c copy narration_trim.mp3
ffmpeg -i mid.mp4 -i narration_trim.mp3 -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4

Если аудио короче и вы хотите, чтобы фоновая музыка заполнила остаток или вы хотите зациклить голос, используйте adelay, apad, или микшировать с фоновой дорожкой. Пример: зациклить дикторский текст, чтобы он соответствовал 20-секундному клипу (обычно не рекомендуется для озвучки):

ffmpeg -stream_loop -1 -i narration.mp3 -i mid.mp4 -t 00:00:20 -c:v copy -c:a aac -map 1:v:0 -map 0:a:0 output_looped.mp4

Как сместить аудио (если повествование должно начаться позже)

Если ваше повествование должно начаться после короткой паузы или вам нужно разместить несколько сегментов в промежутках, используйте -itsoffset:

ffmpeg -i midjourney_raw.mp4 -itsoffset 0.5 -i speech.mp3 -map 0:v -map 1:a -c:v copy -c:a aac -shortest output_offset.mp4

-itsoffset 0.5 задерживает второй ввод на 0.5 секунды.

Для нескольких аудиодорожек или очень точного размещения используйте -filter_complex adelay после создания TTS небольшими сегментами (по одному предложению на файл).:

ffmpeg -i mid.mp4 \
  -i line1.mp3 -i line2.mp3 -i sfx.wav \
  -filter_complex \
    "adelay=0|0; \
     adelay=2500|2500; \
     adelay=1200|1200; \
     amix=inputs=3" \
  -map 0:v -map "" -c:v copy -c:a aac -shortest timed_output.mp4

Здесь adelay Это занимает миллисекунды (2500 мс = 2.5 с), поэтому вы можете точно выровнять текст по визуальным подсказкам.

Делайте повествование кратким и учитывайте особенности сцены: поскольку клипы Midjourney короткие и часто стилизованные, стремитесь к лаконичному завязке (~5–15 секунд), соответствующему темпу видео. Разбивайте текст на короткие предложения, которые будут переплетаться с визуальными переходами или динамикой.

Как свести фоновую музыку + повествование + звуковые эффекты

Используйте filter_complex для микширования нескольких аудиовходов и управления громкостью. Пример:

ffmpeg -i midjourney_raw.mp4 -i narration.mp3 -i music.mp3 \
  -filter_complex "volume=1;volume=0.18;amix=inputs=2:duration=shortest" \
  -map 0:v -map "" -c:v copy -c:a aac final_with_music.mp4

Это смешивает повествование (narration.mp3) и музыка (music.mp3) при этом устанавливая низкий уровень музыки, чтобы она не выделялась на фоне голоса. Вы также можете использовать динамическое дакинг (затухание музыки при воспроизведении закадрового текста) с помощью фильтров боковой цепи или редактировать в DAW для точного затухания.

Расширенное редактирование

Сценарий и темп

  • Напишите подробный сценарий и отметьте визуальные подсказки (тайм-код или номера кадров), чтобы вывод TTS совпадал со сменой сцен.
  • Используйте короткие предложения для лучшей естественной ритмичности; если вам нужно длинное чтение, вставляйте намеренные паузы или разделяйте на несколько вызовов TTS.

Сопоставьте движение, интенсивность и текстуру

  • Используйте переходные звуковые эффекты для акцентирования визуальных переходов или движений камеры.
  • Для медленного, живописного движения «Полпути» (--motion low), отдают предпочтение утонченной атмосфере и длинным хвостам реверберации.
  • Для высокого действия (--motion high), используют мощные звуковые эффекты, музыкальные хиты, соответствующие темпу, и короткую реверберацию.

Стиль рулевого голоса

Используйте поучительные подсказки для управления gpt-4o-mini-tts - например, "instructions": "Calm, conversational, slight warmth, medium speed" или включить эту инструкцию в текстовую полезную нагрузку. Например:

{
  "model":"gpt-4o-mini-tts",
  "voice":"alloy",
  "instructions":"Friendly, slightly breathy; emphasize words 'neon' and 'dawn'",
  "input":"In the neon city, dawn felt electric..."
}

Будьте внимательны: точные названия параметров различаются в разных версиях SDK — проверьте поля, которые поддерживает ваш SDK.

Советы по звуковому дизайну

  • Добавьте негромкий трек (музыку) и включите его сайдчейн или приглушите во время передачи голоса.
  • Используйте короткие свистящие звуки, восходящие звуки или ударные звуковые эффекты, соответствующие визуальным переходам. Звуковые эффекты должны быть короткими и чёткими.
  • Нормализуйте голос (-1 dBFS) и слегка сожмите (соотношение 2:1) для обеспечения одинаковой громкости на всех платформах.
  • Для социальных платформ кодируйте конечное видео со звуком AAC-LC и видео H.264 для совместимости.

Могу ли я заставить персонажей в видеоролике MidJourney «говорить» (синхронизировать губы) с созданным голосом?

Да — используйте модель синхронизации губ для сопоставления фонем из аудио TTS с кадрами движений рта. Существуют два распространённых подхода:

Используйте открытые инструменты, такие как Wav2Lip (локальные или размещенные)

Wav2Lip синхронизирует речь с движениями губ и может работать локально или через сторонние графические интерфейсы. Типичный рабочий процесс:

  1. Экспортируйте видео или серию кадров (последовательность изображений) из MidJourney.
  2. Создайте голосовой файл (OpenAI TTS).
  3. Запустите Wav2Lip, чтобы вывести новое видео, в котором формы рта соответствуют аудио.

Wav2Lip отлично подходит для выравнивания рта 1:1 и имеет открытый исходный код; для визуального улучшения вам может потребоваться некоторая постобработка.

Используйте коммерческие API для одношаговой синхронизации губ

Такие сервисы, как Sync.so, Synthesia и другие, предлагают API/GUI-конвейеры для обработки как речи, так и озвучивания/синхронизации губ, иногда включая многоязычное дубляж. Они могут быть быстрее и менее технически сложными, но являются платными и могут ограничивать возможности точной настройки.

Практические заметки о реализме

  • Для достижения идеального реализма часто требуются микровыражения, моргание глаз и движение головы — некоторые сервисы синхронизации губ добавляют их автоматически, другие требуют ручной настройки.
  • Если персонажи стилизованы (нефотореалистичны), небольшие ошибки синхронизации губ менее заметны; для крупных планов потратьте время на DAW + процесс ретуши лица.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Используйте видео MidJourney в CometAPI

CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться API в середине пути и API видео в середине путиДобро пожаловать на регистрацию и знакомство с CometAPI. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство Для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI поддерживает разрешения SD 480P и HD 720P.

Метод вызова: используйте параметр videoType=vid_1.1_i2v_720.

Видео Midjourney V1поколение: Разработчики могут интегрировать генерацию видео через RESTful API. Типичная структура запроса (иллюстративная)

curl --
location 
--request POST 'https://api.cometapi.com/mj/submit/video' \ 
--header 'Authorization: Bearer {{api-key}}' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_720", "mode": "fast", "animateMode": "manual" }'

Аудио модели

Разработчики могут получить доступ к аудио GPT 4o и TTS-1 через CometAPI, последнюю версию модели (конечная точка:gpt-4o-mini-audio-preview-2024-12-17; tts-1-hd; tts-1) всегда обновляется на официальном сайте. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с руководство по аудио API для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Заключение

Добавить голос и звук в видео Midjourney просто: создайте короткий клип Midjourney, синтезируйте короткий рассказ с помощью управляемого TTS OpenAI, затем объедините и отшлифуйте с помощью ffmpeg. Новые gpt-4o-mini-tts Модель дает вам сильный стилистический контроль, в то время как Midjourney --video Рабочий процесс позволяет создавать чистые короткие анимации — идеально подходящие для социальных сетей, прототипов или концепт-работ.

SHARE THIS BLOG

500+ моделей в одном API

Скидка до 20%