Робот навчився торкатися сам себе та скоординував свої рухи

Марина Качура 31 Серпня 2021 Джерело: IEEE Transactions on Cognitive and Developmental Systems

З питанням, як привчити робота до тактильного сприйняття, британські і чеські інженери звернулися до немовлят і їхнього способу сприйняття себе на дотик. Так зване «моторне лепетання», коли ті несвідомо торкаються, наприклад, обличчя, сприяє координації рухів, усвідомленню дотиків та себе у просторі. І подібна поведінка, як пояснюють вчені у IEEE Transactions on Cognitive and Developmental Systems, може допомогти роботам відчувати світ на дотик.

Навіщо вчити робота торкатися самого себе?

Дотик є найпершим з наших відчуттів, розвиток якого дає основу для сприйняття власного тіла, а з ним і світу. Він визначає наш досвід і поведінку, дає змогу вивчати світ, розрізняти його об'єкти та своє місце серед них. Дотику навіть приписують зв'язок із соціальними навичками, адже той опосередковує міжособистісний контакт. Вчені вважають, що більшість наших тактильних навичок сприйняття, які ми приймаємо як належне, будучи дорослими, займають певний час розвитку. І у перші місяці після народження людина тільки вчиться координувати їх та поєднувати зі слуховими чи візуальними факторами, що у майбутньому стає основою моторного і когнітивтного розвитку.

І на думку дослідників, немовлята тягнуть руки до рота, махають ними, та торкаються себе несвідомо — так само як і вокалізують. Останнє вони до речі роблять так само як і дитинчата кажанів. Це вчені і назвали «моторним лепетанням» або motor babbling та перенесли на роботів, коли ті у наслідок багаторазового виконання випадкової команди, самостійно виробляють собі сенсорно-моторні стосунки та вчаться користуватися своїм тілом. Особливістю цієї моделі є відсутність необхідності у великій кількості попередніх знань для подальшого імітаційного навчання. Однак, навіть не зважаючи на те, що відчуття дотику у роботів ще довго не зможе досягнути рівня людської чутливості, самодослідження у них також не виникає так само невимушено, як у дітей.

Як навчити робота моторно лепетати?

Щоб робот міг досліджувати сам себе — двомірну поверхню свого тіла у тривимірному просторі, що рухається разом з його частинами — його звісно потрібно наділити якимсь зручним для цього алгоритмом. Річ у тім, що хоч концепція і має на увазі здійснення якихось випадкових рухів, робот, коли стикається з величезним простором, має не меншу кількість можливих моторних команд. І це робить звичайний випадково генерований підхід просто неефективним для навчання з огляду на необхідний для цього час. Тим паче, що більшість з виконаних роботом таким чином дій не призведуть до контакту з тілом, а отже і не допоможуть із набуттям тактильного досвіду. Тому вчені обмежують алгоритми два речами: він має відслідковувати ефективність свого навчання та зосереджуватися не на просторі для руху, а безпосередньо на собі. Тобто ключовою вимогою до моделі для навчання дотику до себе є ефективність: алгоритм повинен справлятися з обмеженим часом навчання і ресурсами та вчитися координувати свої дії в потенційно багатовимірному руховому просторі. Для цього вчені шукають підказок у немовлят. Як вони справляються із моторною надмірністю, маючи нескінченну кількість рухових конфігурацій? Чи використовують вони ту ж конфігурацію рук для досягнення певних цілей на тілі або у них є альтернатива? Якщо вірно останнє, від чого залежить вибір? Чи залежить він від поточного положення рук?

Можливо, вас це здивує, однак розробникам це необхідно, щоб створити для робота найефективнішу навчальну модель, яка допоможе йому знайти «золоту середину» між можливими рухами тіла та можливими діями. Тож у цій роботі вчені взялися досліджувати моторне лепетання одного немовляти у період з 4 до 18 місяців, та розробили для робота зворотну кінематичну модель, яка допоможе маніпулятору знайти необхідні точки на тілі, знаючи про його положення у просторі. Експериментальною платформою алгоритму став людиноподібний робот Нао (Nao), що мав чутливу шкіру на зап'ястях, тулубі та голові, хоча більшу частину досліджень провели на його змодельованому аналогу. За словами дослідників, це перша спроба поєднати концепцію навчання робота через моторне лепетання з алгоритмами «внутрішньої мотивації» (Self-Adaptive Goal Generation Robust Intelligent Adaptive Curiosity, SAGG-RIAC), що дає змогу роботу активно виявляти, до яких частин простору завдань він може навчитися досягати, а до яких — ні. SAGG-RIAC підхід створює траєкторії розвитку, що змушують робота поступово зосереджуватися на задачах, від яких він отримує найбільше досвіду, що є статистично значно ефективнішим, ніж випадковий вибір цілей.

Чим це допомогло Нао?

Оскільки таке самоторкання ускладнюється великою кількістю ступенів свободи у робота та розрідженим розташуванням датчиків, це вимагає скоординованих рухових дій. У цій роботі навчальна модель дала Нао змогу швидко знаходити власні частини тіла, адже спиралася не на заздалегідь продумані траєкторії, а на розірвані у часі дії. Тобто Нао оцінював положення своїх рук та найкращі для них конфігурації, замість того, щоб вчитися генерувати цілі траєкторії. По суті моторний простір робота складається з його суглобів, які і дають рукам ступені свободи. Тож починаючи з початкової пози, наприклад, лікоть донизу, робот через проміжні зміни положення шукав кінцеву точку, наприклад, на тулубі, а затим мав повернутися у перше положення. На думку дослідників, це допомагає не переривати навчання навіть якщо роботу не вдалося досягнути якоїсь точки на своєму тілі. Втім, кількість помилок Нао у симуляції не перевищувала десяти відсотків, що свідчить про працездатність навчальної моделі. Головною метою роботи було знайти зручний підхід, який би не обмежував робота у дослідженні себе та ініціював таким чином його навчання. Так, за словами вчених, коли вони перейдуть до експериментів із фізичним роботом, той зможе краще орієнтуватися у просторі, адже матиме ефективну навчальну модель, засновану на самодослідженні подібно до немовлят.