Нейромережа озвучила беззвучне відео

Американські розробники представили алгоритм, який вміє озвучувати відео, що початково були без звуку. Так, наприклад, для відео з велосипедом нейромережа сама відшукала звук вулиці і дзвоника, а на відео з літаком — гул моторів. Для цього вона знаходить імовірні джерела звуку, класифікує їх, а затим підбирає необхідний на її погляд звуковий супровід. Стаття про музичну нейромережу доступна у репозиторії університету Карнегі-Меллон.

David Chuan-En Lin's Research / YouTube

Що доручили нейромережі?

Розробники поспілкувалися з відеоредакторами та з'ясували, що це надзвичайно трудомісткий процес, коли потрібно підібрати звуковий супровід до матеріалу. Так крім пошуку самих звуків, потрібно точно узгоджувати їх із тим, що відбувається на картинці. Тому гарні відео з літаками в кадрі — це накладений згори звук, без якого інакше ви чули б тільки оглушливий шум мотора, якби його записували одразу. А звукорежисери в кіно з мікрофонами змушені шукати відповідний шум води або шарудіння листя.

Кімната для створення шумових ефектів — від шелесту одягу та кроків до скрипіння дверей та биття скла / foleywalkers

Кімната для створення шумових ефектів — від шелесту одягу та кроків до скрипіння дверей та биття скла / foleywalkers

Тому інженери з Університету Карнегі – Меллона розробили систему, яка зіставляє звукові ефекти з відео – Soundify. Використовуючи бібліотеки звукових ефектів студійної якості, Soundify сам знайде кадр, для якого вибере відповідний звук, визначившись із його джерелом на беззвучному відео.

Як підбирати звуки?

На основі понад 90 тисяч високоякісних звукових ефектів, нейромережу навчили визначати їхнє джерело — предмет (велосипед, наприклад) або місце (кафе). Використовуючи алгоритм визначення меж за допомогою RGB-гістограми, Soundify розбиває відео на сцени та класифікує кожну за джерелами, вибираючи для них по п'ять найімовірніших звуків об'єктів чи оточення. Сам Soundify зрештою зупиниться на одному, але як користувач ви зможете залишити додаткові звуки.

Класифікація звуків середовища може бути більш схильна до помилок через те, що фон часто візуально не у фокусі або затемнений. Тоді нейромережа орієнтується на попередній вибір користувача: якщо ви раніше вибирали шум водоспаду, то ймовірно Soundify озвучить ліс, а не кафе в кадрі.

David Chuan-En Lin's Research / YouTube

Як синхронізувати звук з відео?

Джерело звуку може з'являтися лише на частині сцени. Тому нейромережі необхідно синхронізувати вибрані нею ефекти з появою їхнього джерела у кадрі. Можливо кілька часових інтервалів, наприклад, коли джерело зникає, а потім знову з'являється. Кожна сцена розбивається на фрагменти завдовжки за секунду, а Soundify, так само як і відеомонтажери, налаштовує звук: коли літак наближається, він посилюється, і навпаки. Нарешті Soundify поєднує всі звуки ефектів і фонів для всіх сцен в одну фінальну звукову доріжку для відео.

У наступних роботах розробники планують навчити Soundify підставляти складніші ефекти, як звук кроків, а також зробити звукові переходи більш плавними.

David Chuan-En Lin's Research / YouTube

Також раніше ми розповідали, як нейромережу навчили розрізняти окремих людей на відео та прискорювати чи уповільнювати їхній рух так, що взаємодія залишається плавною та природною — змінюються також і тіні чи віддзеркалення об'єктів.