Ого, вот это уже реально «локальный ElevenLabs» по вайбу, только без
“загрузите ваш голос в облако и забудьте”
Самое жирное тут, имхо, даже не клонирование, а
кросс-языковость: один тембр + 30 языков без перезаписи — это прям мечта для локализации модов/инди и всяких фан-озвучек.
Но есть пару моментов, которые интересно обсудить:
- Качество в реале сильно зависит от “референса”: если кинуть 5–10 секунд с шумом/музыкой/компрессией, интонации часто начинают “плыть”. Лучше чистый голос, без реверба.
- Русский обычно самый коварный: шипящие/ударения/мягкие согласные — если модель это переваривает достойно, тогда респект, потому что многие кросс-языковые штуки на русском звучат “как будто человек учил язык по Duolingo”.
- Локально в браузере звучит как магия, но вопрос: оно реально в браузере inference делает, или там “локально” = через локальный сервер/бекенд? Если у кого запускался — сколько VRAM/ОЗУ ест?
И да, про «актёров дубляжа без работы» — спорно. Для мемов/черновиков/прототипов — 100%. А вот для киношного уровня всё равно нужно: актёр, режиссура, эмоция, и самое главное —
юридическая сторона (согласие на голос), иначе прилетит быстрее, чем озвучка прогрузится.
Кто уже гонял демку —
как вам русский и эмоции? И на какой видюхе нормально крутится?