Пам’ять допомогла алгоритму побити людський рекорд у грі Atari

Розробники штучного інтелекту дозволили алгоритму Go-Explore збирати свій власний ігровий досвід, щоб підвищити його вміння грати в Atari. Запам’ятовуючи результати своїх попередніх партій, Go-Explore побив найкращий людський результат у «Помсті Монтесуми», а розробники використали його навички та допомогли роботу з симуляції правильно поставити чашку у шафу. Детальніше перемоги алгоритму вчені описали у статті в Nature.

Montezuma's Revenge. ArcadeImages / Alamy

Montezuma's Revenge. ArcadeImages / Alamy

Навіщо алгоритму ігровий досвід?

Найуспішніші приклади штучного інтелекту, який легко обходить нас у ґо, Starcraft або Dota, послуговувалися навчанням з підкріпленням. Так алгоритмам навіть не потрібно було пояснювати правила, а вони самостійно били рекорди, отримуючи позитивну або негативну оцінку своїх дій після кожного кроку, що заохочує їх обирати найкращі рішення. Цю ж техніку використовують відомі своїми перемогами над людьми, алгоритми DeepMind, яким востаннє підкорилися 57 ігор на приставці Atari. А більше про те, навіщо розробникам вчити штучний інтелект іграм, можна почитати у нашому матеріалі «Ігри, у які грають роботи». Втім, інженери з Uber AI Labs та OpenAI вважають, що успіхи навчання з підкріпленням занадто сильно покладаються на винагороду, а тому для багатьох практичних завдань роботу буде складно розробити мотивацію.

Тобто щоб ваш майбутній домашній робот міг зробити вам каву, його логічно потрібно нагороджувати після того, як кава опиниться у ваших руках. Але при цьому нагорода для алгоритму буде мізерною, оскільки йому доведеться зробити занадто багато «правильних» дій, перш ніж принаймні дістатися кавомашини. Інженери вважають, що наївний пошук роботом винагороди може завести його у глухий кут та навіть змусити йти до кавомашини, не звертаючи увагу на стіни або збиваючи меблі. І звинувачувати буде нікого — алгоритм лише намагався найбільш простим шляхом отримати винагороду, як його і навчили. Вчені стверджують, що здібності сучасних алгоритмів стримує відсутність цікавості, яку у пошуках винагороди вони втрачають, обмежуючи цікаві для дослідження варіанти рішень. Тому вони пропонують дозволити роботам повертатися у пам’яті до рішень, які вони вже бачили раніше, щоб вони мали більше «поле дій», а також не мали кожного разу шукати нове рішення для вже побачених перешкод.

Як його заробити?

Для свого Go-Explore команда розробників створила алгоритм, який запам'ятовує всі різні підходи, який він вже спробував та вміє повертатися до тих, де він отримав найкращий результат. Ігри Atari зазвичай не дозволяють гравцям передивлятися гру, тому дослідники використовували програмне забезпечення, що імітує систему Atari та дає змогу зберігати ігрову статистику та звертатися до неї у будь-який час. Тому Go-Explorе може запускатися з будь-якої точки попередньої гри та не проходити її з самого початку. Програма зберігає знімки екрану під час гри, щоб згадати, що вона вже спробувала, та групує схожі зображення, щоб визначити точки в грі, які можна використати як відправні. По суті Go-Explorе підвищував свої результати, починаючи гру з тієї її частини, де у нього був найвищий бал. Тільки-но алгоритм набирає достатньо високий бал, він починає повертатися до використаної стратегії, щоб надалі грати в гру так само, позбувшись необхідності вигадувати щоразу нову.

Як це допомогло штучному інтелекту?

Go-Explore, так само як і вже відомий нам алгоритм DeepMind, зіграв у всі 55 ігор Atari, але зумів перевершити показники сучасних алгоритмів у 11 більш складних для штучного інтелекту ігор: Berzerk, Bowling, Centipede, Freeway, Gravitar, Montezuma's Revenge, Pitfall , PrivateEye, Skiing, Solaris, Venture. За словами дослідників, їхній алгоритм досягає надлюдсьих оцінок та обирає найкращі траєкторії у 83,6 відсотка всіх зіграних ним ігор. Хоча і з обмовкою, що у роботі не враховували досягнення розробників, які працювали паралельно. Головним досягненням свого алгоритму інженери вважають гру «Помста Монтесуми», де він пройшов усі рівні, а його середній показник у 1,7 мільйона балів фактично перевищує світовий рекорд в 1,2 мільйона, поставлений людиною.

Який стосунок мають ігри до реальних роботів?

В робототехніці схопити об'єкт і підняти його саме по собі є складним завданням, тому інженери зазвичай спрощують можливість робота досліджувати середовище і обирати кращі рішення, на користь більшого діапазону рухів, щоб зробити захоплення імовірнішим. Щоб показати, як Go-Explore може вирішити реальну практичну задачу, наступним експериментом стало моделювання, де роботу-маніпулятору потрібно було поставити чашку на одну з чотирьох полиць. Дві з них знаходилися за дверцятами з засувками, що є для робота додатковою перешкодою. Go-Explore швидко виявив найвдаліші траєкторії для розміщення об'єкта на кожній з чотирьох полиць та успішно виконував завдання у 99 відсотках випадків.

Дослідники вважають, що саме досвід алгоритму та можливість досліджувати середовище дають йому змогу більше ефективно розв’язувати завдання та не вимагати складного ранжування винагород.