Кейс · Performance-маркетинг

Speech-to-Creative Pipeline: распознавание речи + смена языка + lip-sync

Один креатив масштабируется на 5+ языков и гео автоматически. Whisper расшифровывает речь → GPT-4o переводит и переписывает под рынок и persona → ElevenLabs клонирует голос с правильным акцентом → wav2lip синхронизирует движение губ под новый audio. Что раньше требовало студии звукозаписи и неделю работы — теперь делается за вечер.

Индустрия

Performance / Affiliate / Media-Buying

Стек

Whisper · GPT-4o · ElevenLabs · ffmpeg

Сроки

≈ 5 рабочих дней (MVP)

Итог

1 видео → 10-30 вариантов

01 · Боль

Спай-данные есть, но руками не масштабируется

В performance-маркетинге спай-сервисы (AdHeart, AdSpy, AdsLibrary, Anstrex) дают тысячи работающих креативов конкурентов — но «по чуть-чуть отнять» можно только то, что не нарушает Copyright Strike. Голос диктора, бэкграунд, лицо актёра, лип-синк — всё, что попадает под DMCA, требует пересоздания.

Раньше воркфлоу выглядел так: смотрю спай-видео → пишу транскрипт руками → отдаю копирайтеру переписать под свой оффер → нанимаю voice-actor через Fiverr → жду 1-3 дня → монтирую в Final Cut → итерирую. 4-6 часов работы на одну вариацию, и это без учёта lip-sync.

При бюджетах $2-5k/день на A/B-тесты скорость production-цикла = единица конкурентного преимущества. Когда у тебя 8-10 связок одновременно и каждая требует 20-30 свежих креативов в неделю — ручной workflow перестаёт работать.

02 · Решение

4-этапный pipeline: STT → LLM → TTS → lip-sync

STT

Whisper-расшифровка спай-видео

whisper-large-v3 или OpenAI whisper-1 через API. Поддержка русского, английского, балканских, тюркских, испанского. Выдаёт SRT с таймкодами — знаем точно, на какой секунде какая фраза.

LLM · TRANSLATE

GPT — перевод, локализация, переписывание под persona

GPT-4o делает три задачи в одном проходе: (a) разбирает транскрипт на композиционные блоки — hook (первые 3 сек), pain, proof, CTA; (b) переводит на целевой язык (русский / английский / сербский / польский / турецкий) с учётом культурных нюансов — не дословно, а как «носитель бы это сказал»; (c) переписывает под нужный оффер, persona и гео, сохраняя ритм и эмоциональные триггеры оригинала.

Few-shot prompts с готовыми примерами «было → стало» для каждого языка и ниши. Главный фокус — сохранить таймкоды: каждая фраза по длительности должна совпадать с оригиналом, иначе lip-sync сломается. Выход — 10-30 вариаций × 5+ языков, ранжированные по предсказанному engagement.

TTS · CLONE

ElevenLabs — voice cloning с правильным акцентом

ElevenLabs Multilingual v2 поддерживает 29 языков в одной модели — клонированный голос звучит на любом из них с правильным акцентом. Это важно: если оригинальный диктор — американка с южным акцентом, её клон на сербском не будет звучать как робот, а как естественная сербка-носительница.

Две стратегии: (a) voice cloning — 30-секундного сэмпла достаточно для high-quality клона; (b) stock-voices для быстрых A/B по тембру (мужской/женский, возраст, эмоциональный тон). Stability / similarity / style settings подкручиваются под нишу. На выходе — audio.wav совпадающей длительности с оригиналом (важно для следующего шага).

LIP-SYNC

wav2lip — синхронизация движения губ

На этом этапе появляется «магия» — актриса в видео начинает говорить на новом языке так, будто это сняли заново. wav2lip анализирует исходное видео + новый audio.wav и перерисовывает область рта кадр за кадром, чтобы движение губ соответствовало новой речи. GPU нужен, но это часы compute, не дни студии.

Простой случай (voice-over / off-screen): ffmpeg просто заменяет audio-дорожку. Сложный случай (talking-head): wav2lip или SadTalker для синхронизации лица. На выходе — готовый mp4 под рекламные площадки (FB Ads / TikTok / VK Ads / Yandex Direct).

03 · Стек

Технологии и инфраструктура

Speech-to-Text

OpenAI Whisper API (whisper-1)
whisper-large-v3 (self-hosted, при больших объёмах)
SRT-парсинг для таймкодов

LLM-orchestration

GPT-4o / Claude Sonnet 4.5
few-shot prompts с примерами hook → rewrite
structured outputs (JSON schema)

Text-to-Speech

ElevenLabs Multilingual v2
Voice cloning (30-сек сэмпла достаточно)
VOICE-стиль settings: stability / similarity / style

Video / lip-sync

ffmpeg для audio-replace (voice-over)
wav2lip / SadTalker для talking-head
Python orchestration + очередь задач

04 · Результат

Что меняется в воронке

Время production

4-6 ч ~30 мин

на одну вариацию креатива (audio-replace, без lip-sync)

Объём из 1 видео

1-2 10-30 × 5+

вариаций × языков (1 актриса → 5+ гео без re-shoot)

Cost per creative

$40-80 ~$2

Whisper + GPT + ElevenLabs (по API-тарифам, без lip-sync)

Главный эффект — скорость итерации. A/B-тест из 20 hook'ов вместо 2 запускается за вечер, а не за неделю. Победившие связки идентифицируются в первые 24-48 часов, проигравшие отключаются до сжигания бюджета. CPI снижается на 15-30% за счёт лучшего hook-match с persona.

05 · Применимость

Где работает, где нет

Подходит

· Performance-агентства с 5+ креативщиков
· Affiliate-команды (nutra, e-com, sweepstakes, белые гео)
· In-house маркетинг E-com с регулярными UGC-роликами
· Запуски в 5+ странах одновременно (multi-language от одного master-сценария)
· Подкастеры / инфо-бизнес для нарезок short-form контента

Не подходит

· Прямое копирование чужих креативов (DMCA / Copyright Strike)
· Регулируемые ниши (медицина, фарма, финансы) — нужны медиа-юристы для compliance
· Voice cloning без согласия владельца голоса (запрещено в ЕС AI Act)
· Long-form (10+ минут видео) — стоимость TTS и времени монтажа сравнима с дорогим human-actor

Этическая нота: pipeline предназначен для масштабирования собственных идей и оригинальных сценариев. Использование чужих видео и голосов без разрешения — нарушение Copyright и AI Act. Я делаю транскрипт чужих креативов как research для понимания рынка, а затем создаю собственный сценарий, собственное audio и собственное видео.

Готовы начать?

Аудит за 5 000 ₽ — с конкретным отчётом и сметой

Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).

Записаться на аудит Написать в Telegram

Или просто напишите свой вопрос — отвечу в течение 2 часов