Технології
Технології

Штучний інтелект відтворив рух язика людини за однією її фотографією

Алгоритми вже давно вміють відтворювати моделі людських голів за фото, однак досі ігнорували роль язика у міміці. Тепер вчені навчили штучний інтелект відтворюватиза фотографіями і язик, що допоможе створити більш реалістичних 3D-аватарів для віртуальної реальності або комп'ютерних ігор. Свій спосіб уникнути ефекту моторошної долини вчені описали у статті, доступній на сервісі препринтів arXiv.

Ploumpis S. et al.

Ploumpis S. et al.

Навіщо ШІ відтворювати язики?

Тривимірна реконструкція людських облич вже давно широко послуговується досягненнями штучного інтелекту — ще з кінця 90-х років ми навчилися створювати їх автоматично з однієї або декількох фотографій. Втім, не зважаючи на зростаючий рівень деталізації, всі ці методи не враховують ніяких статистичних змін в порожнині рота, не кажучи вже про сітку шаблонів руху язиків. Однак, можливість реконструювати вираз обличчя саме з язиком дає безліч переваг. Згенеровані аватари будуть більш реалістичними і зможуть імітувати набагато більше мімічних особливостей, а заразом покращиться і мовна анімація та додатки для розпізнавання осіб, адже штучний інтелект навчиться сприймати набагато більше чинників.

Як його навчили помічати їх на фото?

Складність реконструювання руху язика пов'язана з двома причинами: по-перше, немає загальнодоступного набору даних, а по-друге, дуже складно виконати тривимірну реконструкцію обличчя із «живих» зображень через високу пластичність людської міміки. Язик може утворювати безліч форм, а на його однорідній поверхні відсутні зручні орієнтири або орієнтири, які алгоритми можуть використовувати для створення моделей. Тому у пошуках рішень дослідники зібрали для своєї роботи 1 800 3D-сканів 700 осіб, які відвідали Музей науки в Лондоні. Добровольців проінструктували використовувати язик в різних положеннях, як-то висунутий вліво, вправо або прямо, щоб отримати ряд даних. Отримавши дані, вчені створили хмару точок для язика, які міг би розпізнавати автокодувальник. Так він отримав корисні 3D-функції з необроблених зібраних даних, які потім наніс на попередньо розроблену дослідниками модель для реконструкції повноцінних зображень голови, що параметризує черепно-лицьову форму та текстуру із формою вух, а також поглядом і кольором очей. Для цієї роботи її додатково налаштували, щоб вона враховувала і наявність язика у людських головах.

Далі вчені звернулися до генеративної змагальної нейромережі, яка створювала нові 3D-моделі з фото і 3D-сканувань облич учасників експерименту. Змагальний підхід включає дві нейронні мережі: одна навчена створювати 3D-зображення з 2D-зображень, а інша призначена для визначення достовірності результатів. Працюючи таким чином один проти одного, вони покращили алгоритми один одного і підвищили рівень реалізму. Крім того, для навчання вони використали понад 15 різних положень язика та обличчя людей у поєднанні з випадковими положеннями світла — в результаті вийшло близько сотні тисяч зображень.

Оскільки у дослідників не було еталонних даних про людські язики, відповідних «живим» двомірним зображенням, перше навчання нейромереж відбулося за даними, що були отримані в контрольованих умовах. Однак, це досить неоптимальний крок, щоб потім нейромережі самостійно навчилися включати і язик у свої моделі, щоб виправити це, вчені розробили нову структуру генеративної змагальної нейромережі.

Згенеровані алгоритмом язики / Ploumpis S. et al.

Згенеровані алгоритмом язики / Ploumpis S. et al.

Як справився алгоритм?

За словами вчених, це перший алгоритм, який може точно відтворювати людську міміку разом із положенням язика, який до того ж тепер вміє робити це за «живими» зображеннями, а не спеціально підготованими. Також у процесі вони створили першийзагальнодоступний набір різноманітних даних про язики із 1800 необроблених сканованих зображень 700 осіб, що розрізняються за статтю, віком і етнічним походженням. На їхню думку,

У цій роботі ми представляємо , наскільки нам відомо, безперервний, якого навчають конвеєр, який точно відтворює тривимірне особа разом з мовою. Більш того, ми робимо цей конвеєр стійким на зображеннях «в дикій природі», впроваджуючи новий метод GAN, адаптований для створення тривимірної поверхні язика. Нарешті, ми робимо загальнодоступним для спільноти Плюмпіс стверджує, що аватари з точно відтвореними особливостями ротової порожнини будуть виглядати більш реалістично і допоможуть уникнути «моторошної долини», коли заговорять із вами у віртуальній реальності або під час гри.

Такий алгоритм допоможе і роботам краще нас розуміти. Наприклад, голові робота Єва, який зараз вже вміє повторювати емоції і посміхатися у відповідь, хоч і без язика. Або трохи страхітливому роботу від Disney, якого наділили реалістичним поглядом і він тепер вміє пильно спостерігати за співрозмовником, жмуритися і повертати голову.