Згенероване нейромережею Nvidia обличчя поєднало міміку з голосом

Розробники Nvidia представили нейромережу, яка здатна анімувати міміку 3D-моделі обличчя згідно із записаною промовою. Відкрита платформа Audio2Face змушує обличчя аватара змінюватися у відповідності до аудіофайла, причому у реальному часі та декількох мовах. Audio2Face спрощує анімацію тривимірного персонажа та може змусити заговорити навіть цифрового носорога, пояснюють у блозі компанії.

Nvidia

Nvidia

Як говорять згенеровані обличчя?

Тривимірна реконструкція обличчя нейромережами ще з моменту появи наприкінці 90-х років захопила увагу розробників та майже одразу отримала практичне застосування — реалістичні ігрові аватари і анімація у кіно, розпізнавання облич та навіть дослідницькі роботи, наприклад, з міміки людини. Втім, створення реалістичного обличчя є лише одним з етапів і розробники щоразу підвищують рівень їхньої деталізації — емоції, рухи, погляд.

І анімація згенерованого обличчя згідно із текстом, який воно має проговорювати, є однією з широко досліджених сфер, яка, втім, складно піддається масштабуванню. Це пов'язано з відсутністю доступних наборів 3D-даних, моделей та стандартних оцінок для міміки, хоча більшість рухів обличчя спричинені безпосередньо мовленням. Наприклад, рекурентній нейронній мережі знадобилося 1,9 мільйона кадрів зі щотижневих звернень Обами, щоб створювати фотореалістичні анімації текстури рота за текстом.

NVIDIA Omniverse / YouTube

Нова розробка Nvidia — також інструмент для анімації тривимірного обличчя. Поки на етапі бета-тестування, Audio2Face має поєднувати аудіофайл із мімікою обличчя аватара. Застосунок пропонують використовувати для інтерактивних програм у реальному часі або як традиційний інструмент для створення анімації обличчя.

Як працює Audio2Face?

Audio2Face попередньо працює з людською головою Digital Mark — тривимірною моделлю персонажа, яку можна анімувати за допомогою звукової доріжки, яку ви завантажите. Глибинна нейронна мережа його обробить та сама створить необхідні на обличчі зміни, які ви зможете коригувати на етапі пост-обробки. Крім того, розробники обіцяють, що ви можете підвищувати або знижувати рівень вираження емоцій на кожному обличчі.

Nvidia

Nvidia

Нейронна мережа автоматично керує рухом очей, рота та голови, щоб відповідати обраному вами емоційному діапазону. Втім, це стосується не тільки людської голови, і реалістично заговорити зможе навіть носоріг. Також Audio2Face може змусити говорити кілька облич одразу з однієї чи різних звукових доріжок.Audio2Face зможе легко обробляти будь-яку мову і зараз розробники поповнюють бібліотеку платформи.

Також раніше ми писали, як штучний інтелект відтворив рух язика людини за однією її фотографією і так значно підвищив реалістичність змодельованої людської голови. У майбутньому всі подібні алгоритми знадобляться, щоб робот з реалістичним поглядом від Disney виглядав більш емоційно і природно.


Фото в анонсі: NVIDIA