Перейти к содержимому
VC
Кейс · Performance-маркетинг

Speech-to-Creative Pipeline: распознавание речи + смена языка + lip-sync

Один креатив масштабируется на 5+ языков и гео автоматически. Whisper расшифровывает речь → GPT-4o переводит и переписывает под рынок и persona → ElevenLabs клонирует голос с правильным акцентом → wav2lip синхронизирует движение губ под новый audio. Что раньше требовало студии звукозаписи и неделю работы — теперь делается за вечер.

Индустрия
Performance / Affiliate / Media-Buying
Стек
Whisper · GPT-4o · ElevenLabs · ffmpeg
Сроки
≈ 5 рабочих дней (MVP)
Итог
1 видео → 10-30 вариантов
01 · Боль

Спай-данные есть, но руками не масштабируется

В performance-маркетинге спай-сервисы (AdHeart, AdSpy, AdsLibrary, Anstrex) дают тысячи работающих креативов конкурентов — но «по чуть-чуть отнять» можно только то, что не нарушает Copyright Strike. Голос диктора, бэкграунд, лицо актёра, лип-синк — всё, что попадает под DMCA, требует пересоздания.

Раньше воркфлоу выглядел так: смотрю спай-видео → пишу транскрипт руками → отдаю копирайтеру переписать под свой оффер → нанимаю voice-actor через Fiverr → жду 1-3 дня → монтирую в Final Cut → итерирую. 4-6 часов работы на одну вариацию, и это без учёта lip-sync.

При бюджетах $2-5k/день на A/B-тесты скорость production-цикла = единица конкурентного преимущества. Когда у тебя 8-10 связок одновременно и каждая требует 20-30 свежих креативов в неделю — ручной workflow перестаёт работать.

02 · Решение

4-этапный pipeline: STT → LLM → TTS → lip-sync

01
STT

Whisper-расшифровка спай-видео

whisper-large-v3 или OpenAI whisper-1 через API. Поддержка русского, английского, балканских, тюркских, испанского. Выдаёт SRT с таймкодами — знаем точно, на какой секунде какая фраза.

02
LLM · TRANSLATE

GPT — перевод, локализация, переписывание под persona

GPT-4o делает три задачи в одном проходе: (a) разбирает транскрипт на композиционные блоки — hook (первые 3 сек), pain, proof, CTA; (b) переводит на целевой язык (русский / английский / сербский / польский / турецкий) с учётом культурных нюансов — не дословно, а как «носитель бы это сказал»; (c) переписывает под нужный оффер, persona и гео, сохраняя ритм и эмоциональные триггеры оригинала.

Few-shot prompts с готовыми примерами «было → стало» для каждого языка и ниши. Главный фокус — сохранить таймкоды: каждая фраза по длительности должна совпадать с оригиналом, иначе lip-sync сломается. Выход — 10-30 вариаций × 5+ языков, ранжированные по предсказанному engagement.

03
TTS · CLONE

ElevenLabs — voice cloning с правильным акцентом

ElevenLabs Multilingual v2 поддерживает 29 языков в одной модели — клонированный голос звучит на любом из них с правильным акцентом. Это важно: если оригинальный диктор — американка с южным акцентом, её клон на сербском не будет звучать как робот, а как естественная сербка-носительница.

Две стратегии: (a) voice cloning — 30-секундного сэмпла достаточно для high-quality клона; (b) stock-voices для быстрых A/B по тембру (мужской/женский, возраст, эмоциональный тон). Stability / similarity / style settings подкручиваются под нишу. На выходе — audio.wav совпадающей длительности с оригиналом (важно для следующего шага).

04
LIP-SYNC

wav2lip — синхронизация движения губ

На этом этапе появляется «магия» — актриса в видео начинает говорить на новом языке так, будто это сняли заново. wav2lip анализирует исходное видео + новый audio.wav и перерисовывает область рта кадр за кадром, чтобы движение губ соответствовало новой речи. GPU нужен, но это часы compute, не дни студии.

Простой случай (voice-over / off-screen): ffmpeg просто заменяет audio-дорожку. Сложный случай (talking-head): wav2lip или SadTalker для синхронизации лица. На выходе — готовый mp4 под рекламные площадки (FB Ads / TikTok / VK Ads / Yandex Direct).

03 · Стек

Технологии и инфраструктура

Speech-to-Text
  • OpenAI Whisper API (whisper-1)
  • whisper-large-v3 (self-hosted, при больших объёмах)
  • SRT-парсинг для таймкодов
LLM-orchestration
  • GPT-4o / Claude Sonnet 4.5
  • few-shot prompts с примерами hook → rewrite
  • structured outputs (JSON schema)
Text-to-Speech
  • ElevenLabs Multilingual v2
  • Voice cloning (30-сек сэмпла достаточно)
  • VOICE-стиль settings: stability / similarity / style
Video / lip-sync
  • ffmpeg для audio-replace (voice-over)
  • wav2lip / SadTalker для talking-head
  • Python orchestration + очередь задач
04 · Результат

Что меняется в воронке

Время production
4-6 ч ~30 мин

на одну вариацию креатива (audio-replace, без lip-sync)

Объём из 1 видео
1-2 10-30 × 5+

вариаций × языков (1 актриса → 5+ гео без re-shoot)

Cost per creative
$40-80 ~$2

Whisper + GPT + ElevenLabs (по API-тарифам, без lip-sync)

Главный эффект — скорость итерации. A/B-тест из 20 hook'ов вместо 2 запускается за вечер, а не за неделю. Победившие связки идентифицируются в первые 24-48 часов, проигравшие отключаются до сжигания бюджета. CPI снижается на 15-30% за счёт лучшего hook-match с persona.

05 · Применимость

Где работает, где нет

Подходит
  • · Performance-агентства с 5+ креативщиков
  • · Affiliate-команды (nutra, e-com, sweepstakes, белые гео)
  • · In-house маркетинг E-com с регулярными UGC-роликами
  • · Запуски в 5+ странах одновременно (multi-language от одного master-сценария)
  • · Подкастеры / инфо-бизнес для нарезок short-form контента
Не подходит
  • · Прямое копирование чужих креативов (DMCA / Copyright Strike)
  • · Регулируемые ниши (медицина, фарма, финансы) — нужны медиа-юристы для compliance
  • · Voice cloning без согласия владельца голоса (запрещено в ЕС AI Act)
  • · Long-form (10+ минут видео) — стоимость TTS и времени монтажа сравнима с дорогим human-actor

Этическая нота: pipeline предназначен для масштабирования собственных идей и оригинальных сценариев. Использование чужих видео и голосов без разрешения — нарушение Copyright и AI Act. Я делаю транскрипт чужих креативов как research для понимания рынка, а затем создаю собственный сценарий, собственное audio и собственное видео.

Готовы начать?

Аудит за 5 000 ₽ — с конкретным отчётом и сметой

Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).

Или просто напишите свой вопрос — отвечу в течение 2 часов