Технології
Технології

Штучний інтелект навчився ефективно синхронізувати дубляж та рухи губ

Штучний інтелект навчився редагувати відео у режимі реального часу, щоб синхронізувати рухи губ людини з її мовленням. На думку авторів статті, опублікованій на сайті препринтів arXiv.org, такий механізм полегшить дубляж фільмів.

Які технології зазвичай використовуються для дубляжу?

Створення відеоконтенту на різних мовах дозволяє значно розширити аудиторію. Перекладений цикл лекцій, відомий фільм або публічне звернення можуть стати доступними мільйонам нових глядачів. Вирішальним аспектом перекладу такого

контенту є корекція синхронізації губ людей з їхніми словами, щоб відповідати бажаній цільовій мові. Перші дослідження у цій галузі застосовували глибинне машинне навчання, щоб співставляти мовлення з рухами губ, використовуючи кілька годин промови одного оратора. Пізніші роботи чудово справляються з точним рухом губ на статичному зображенні або на відео конкретних людей, побачених на етапі тренування. Однак їм не вдається точно перетворити рухи губ довільних ораторів у динамічних, необмежених відеороликах, внаслідок чого значні частини відео не синхронізуються з новим звуком.

Який алгоритм створили вчені?

Команда дослідників розробила алгоритм, який може швидко змінювати відеокадри людини, що говорить чи співає. Вчені навчили алгоритм синхронізації губ на коротких відеокліпах, під час яких він визначав форму губ людей, що говорять. Алгоритм відноситься до генеративної змагальної мережі та складається з кількох штучних інтелектів, що конкурують між собою. Один з них — генератор, повинен відрегулювати зображення губ людини відповідно до вимовлених слів. Два інших — дискримінатори. Вони мають розрізнити, справжні кадри чи фальшиві. Один дискримінатор перевіряє реалістичність форм губ, посилаючи сигнал генератору, якщо між звуком і рухами губ є чітка невідповідність. Другий забезпечує візуальну перевірку якості, позначаючи будь-які збої або неприродні ефекти навколо рота оратора. Генератор став більш кваліфікованим у виробництві реалістичних кадрів протягом декількох раундів, поки врешті-решт дискримінатори більше не могли побачити різницю між реальними та фальшивими кадрами.

Rudrabha Mukhopadhyay et al. / YouTube

Наскільки він ефективний?

Щоб синхронізувати однохвилинне відео, знадобиться близько двох хвилин. Більшу частину цього часу вимагає алгоритм для виявлення обличчя людини на відео, тоді як компонент синхронізації губ відбувається в реальному часі. Оскільки алгоритм навчався на людських обличчях, наразі він більше підходить для відеозаписів людей, а не створених комп’ютером персонажів. Крім того, він працює краще, якщо наданий звук є голосом реальної людини, а не мовою, яку генерує комп’ютер.