Штучний інтелект навчився уповільнювати окремі об’єкти на відео

22 Жовтня 2020 Джерело: arXiv

Розробники з Оксфордського університету розробили нейромережу, яка розрізняє окремих людей на відео та може прискорювати або уповільнювати їхній рух так, що взаємодія залишається плавною та природньою. Нейромережа перетворює кожний елемент відео, у тому числі і фон, на різні шари та взаємодіє з кожним окремо. Таким чином, вченим вдалося створити єдиний інструмент для відеомонтажу, який може змінити весь перебіг подій на записі. Опис роботи штучного інтелекту та її результати доступні у препринті на сайті arXiv.org.

Чому це важливо?

У фільмах зміна часу шляхом прискорення, уповільнення або синхронізації рухів людей часто використовується для драматизації події або зменшення акценту на певних рухах або події. Зміна руху людей на відео може повністю змінити наше сприйняття та враження від записаного. Проте, редагування таких деталей, як швидкість або час руху об’єктів на відео, вимагає багато часу, концентрації та комбінації безлічі додатків для монтажу. Зазвичай подібне роблять "домальовуючи" 3D людей в сцену.

Раніше Nvidia розробила подібну систему, яка також використовує алгоритми машинного навчання, щоб уповільнювати відеоролики, але змінює все відео, генеруючи додаткові кадри. У своїй же роботі розробники Google і Оксфордського університету змогли змінити рух кожного об’єкта окремо, навіть враховуючи характерні зміни тіней та бризок води. За їхніми словами, створений ними метод поки вимагає навчання на кожному окремому відео, що займає багато часу, а нейромережа не може зосередитися на таких деталях, як миготіння світла, але надалі вони планують представити універсальний засіб редагування відео.

Що зробили розробники?

Вчені представили метод повторної синхронізації людей в звичайному, природному відео, тобто спосіб маніпуляції і редагування часом різних рухів у відео. Нейромережа може змінювати їхню швидкість: прискорювати, уповільнювати чи повністю прибирати з кадру, при цьому узгоджуючи дії окремих об’єктів між собою. Це ключова властивість інструменту - виділення руху людини чи предмета у відео та зміна його відповідно до змін екстер’єру, які вони утворюють: наприклад, тіней, віддзеркалень, руху одягу.

Нейромережа створює ці ефекти розглядаючи відео як багаторівневу структуру, де кожен кадр розкладається на окремі шари RGBA (кольорова модель, що включає зелений, червоний, синій та прозорий). Ці шари окремо редагуються та об’єднуються в нове відео, яке може природньо зображати складні дії навіть за участі декількох людей, як-то танці, стрибки на батуті або біг. Розробники зосередилися виключно на зміні швидкості, тобто поза кожної людини чи предмета на початковому відео існувала в якомусь кадрі й нові пози чи точки огляду не домальовуються.

Як працює нейромережа?

Штучний інтелект розпізнає об’єкти на кожному розділеному шарі відео та відстежує їх рух, слідкуючи в першу чергу за руками. Потім аналізує, як люди або об'єкти взаємодіють з навколишнім світом і уповільнює чи прискорює ці деталі. Такий ефект досягається глибоким навчанням нейромережі, яка має вміти пов’язувати всі елементи навколо людини з самою людиною. Потім штучний інтелект поєднує їх, майже непомітно маскуючи моменти перетину двох об’єктів, наприклад. Поки в системі роботи є деякі помилки. Наприклад, неправильне перенесення бризок води, відсутність змін на деталях, не пов’язаних з діями людей. Однак, за словами розробників, такі помилки можна швидко виправити вручну.