Роботів навчили самостійно освоювати нові навички

Інженери навчили чотириногого робота вставати після падіння на каменях, траві та бігати риссю, не показуючи йому попередньо, як це робити. Вони використали глибинне навчання з підкріпленням, де навчили окремо кожну нейромережу різним навичкам, які вона потім поєднала та з часом навчилася виконувати й нові трюки, які раніше не знала. Поки це лише перший крок до самостійності роботів - їх ще потрібно навчити враховувати й візуальні і тактильні відчуття, повідомляють розробники у статті, опублікованій у журналі Science Robotics.

Unitree

Unitree

Чому не можна навчити робота заздалегідь?

Створення універсального робота вимагає рухових навичок, які він зможе адаптувати до раніше невідомих ситуацій. Адаптивні рухові навички дозволяють живим організмам виконувати складні рухові завдання і дають їм більше шансів на виживання в природі. Для створення поведінки роботів, аналогічній поведінці тварин, вчені розробляють алгоритми навчання, які могли б відтворити механізми моторної кори. Проте, від біологічних аналогів штучні нейромережі все ще сильно відрізняються, і одним з таких відмінностей є нездатність запам'ятовувати старі навички при навчанні якоїсь нової задачі. Ця особливість називається «катастрофічною забудькуватістю» (catastrophic forgetting), і через неї одну і ту ж нейромережу, як правило, не можна послідовно навчити виконувати декілька завдань, оскільки в кожній новій навчальній вибірці всі групи нейронів будуть переписані і з попереднім завданням така мережа перестане справлятися.

У своїй роботі розробники вирішили застосувати глибинне навчання з підкріпленням (deep reinforcement learning) - з ним можна набувати навичок через завдання, нагороджуючи бажані і караючи небажані результати. Їхній робот генеруватиме адаптивні навички з групи репрезентативних експертних навичок, поєднуючи глибинні нейромережі, розроблені для різних навичок, створюючи нову мережу з перевагами всіх її.

Як вони навчатимуть робота?

За словами розробників, їхня система вийшла більшою, ніж просто сума її частин - вона змогла вивчити нові функції, які жодна з нейромереж не могла виконувати поодинці. Дослідники назвали це архітектурою навчання з декількома експертами (multi-expert learning architecture, MELA). Під час навчання вона спочатку ініціалізується з окремим набором попередньо навчених нейромереж-експертів, а потім, вивчаючи їхню комбінацію, генерує нових “експертів”. Тобто MELA постійно змішує кілька нейромереж і динамічно синтезує нову для створення адаптивної поведінки у відповідь на невідомі ситуації. Це як вчитися грати у баскетбол: гравці спочатку відпрацьовують найважливіші допоміжні навички окремо, а потім використовують їхню комбінацію під час гри.

Чому навчився робот?

Спочатку, одна нейромережа навчила робота бігати, а інша - обходити перешкоди, а потім їх всі під’єднали до одної, яка з часом навчилася викликати інші попередні, коли виникала ситуація, що вимагала особливого набору навичок. Отримана в результаті система змогла реалізувати всі навички всіх об'єднаних нейромереж.Завдяки лише одній структурі MELA, розробники навчили реального чотириногого робота бігати риссю та вставати після падіння на різних поверхнях як-то кам’яна галька чи трава. В міру того, як MELA дізнавалася більше про свої складові частини та їхні здібності, вона навчилася використовувати їх разом методом проб і помилок способами, яким її не вчили. Наприклад, поєднувати вставання після падіння на слизькій підлозі або діяти у разі виходу з ладу одного з двигунів.

Однак, хоча поточна схема MELA здатна генерувати адаптивні навички, вона поки не має візуального і тактильного сприйняття, що має вирішальне значення для довгострокового планування рухів, динамічних маневрів і використання можливостей для координації всього тіла. Тому щоб отримати більш просунутий патерн руху в неструктурованому середовищі, у майбутніх дослідженнях вчені планують інтегрувати візуальні підказки і тактильне сприйняття для урахування всіх особливостей навколишнього середовища.