Новий алгоритм DeepMind навчився грати в ігри без знання правил

Марина Качура 25 Грудня 2020 Джерело: Nature

Розробники DeepMind заявили, що створений ними алгоритм MuZero може справитися з іграми навіть не знаючи попередньо їхніх правил. Замість правил він використовує так званий «попереджуючий пошук», тобто оцінює своє положення та аналізує можливі ходи на основі реакції супротивника або через отримані перед цим нагороди. MuZero успішно виграв кілька партій у стандартних для штучного інтелекту іграх на кшталт шахів та ґо, а також 57 ігор на приставці Atari. Про свої результати розробники повідомили у статті, опублікованій у журналі Nature.

Навіщо вчити ШІ грати в ігри?

Чемпіони світу зазнали поразки перед штучним інтелектом в таких класичних іграх, як шашки, шахи, стародавній китайській грі ґo та покері. Алгоритми вчать планувати свої дії, покладаючись на попередні знання динаміки навколишнього середовища, моделі орієнтуються або на реконструкцію стану навколишнього середовища, або на послідовність певних спостережень(саме тому розробники ШІ обирають ігри — у них є правила). І прогрес вже досяг того, що ми використовуємо штучний інтелект для завдань від керування безпілотним автомобілем до обробки великих масивів даних на кшталт можливих сполук хімічного синтезу та структур білків.

Однак найуспішніші приклади навчання штучного інтелекту з підкріпленням базуються на безмодельних методах, тобто тих, що оцінюють оптимальну поведінку безпосередньо на основі взаємодії з навколишнім середовищем. Це підходить для реальних середовищ, таких як робототехніка, промисловий контроль чи інтелектуальні помічники. Проте натомість, таким безмодельним алгоритмам складно у ситуаціях, що вимагають точного та складного планування ходів, наприклад, шахи або гра у ґo.

Як новий алгоритм грає в ігри?

MuZero базується на пошуку за деревом Монте-Карло: дерево являє собою структуру, в якій крім ходів є кількість зіграних і кількість виграних партій і на основі цих двох параметрів алгоритм вибирає наступний крок. Схожа архітектура була і в AlphaZero, однак новий алгоритм поширюється на більш широкий набір середовищ, де враховує ходи суперників і ненульові винагороди на проміжних етапах часу. Основна ідея полягає у прогнозуванні тих аспектів, які мають безпосередній стосунок до планування: модель отримує спостереження, наприклад, зображення дошки ґо або екрана Atari, як вхідні дані та перетворює його у прихований стан, який потім оновлюється і доповнюється гіпотетичною наступною дією. На кожному з цих кроків модель має інформацію про свій поточний і попередній стан, а також про можливого переможця і винагороду — набрані під час ходу очки. Немає прямого обмеження або вимог для прихованого стану, тобто він може охоплювати лише необхідну йому інформацію, що зменшує обсяг потрібних даних, а також алгоритм може інтуїтивно внутрішньо вигадувати правила, щоб планувати новий хід.

Що вміє MuZero?

Розробники випробували алгоритм на класичних настільних іграх: китайській ґо, шахах та японських шахах сьоґі, щоб побачити його ефективність у розв’язанні проблем планування, а також на 57 іграх Atari, як еталон візуально складного навчального середовища. Навчання MuZero включало до одного мільйона мініпартій на 2048 клітинок в настільних іграх та іграх розміром 1024 в Atari, на які в алгоритму було лише п’ять можливих кроків. Під час навчання та оцінювання MuZero використовував 800 симуляцій для кожного кроку в настільних іграх та 50 симуляцій для Atari. У грі в ґо алгоритм перевершив навіть знаменитий AlphaZero(перший подібний алгоритм від DeepMind), причому використовуючи 16 обчислювальних вузлів замість звичайних 20. Це говорить про те, що MuZero може кешувати свої обчислення в дереві пошуку та використовувати кожне додаткове застосування динамічної моделі, щоб глибше зрозуміти позицію. В аркадах Atari MuZero досяг нового рівня для штучного інтелекту, випередивши попередній найсучасніший алгоритм з безмодельним підходом R2D2 у 42 із 57 ігор, а також MuZerо перевершив попередній найкращий результат алгоритмів з моделюванням у всіх іграх.

Розробники об’єднали переваги безмодельних та заснованих на плануванні методів і важливо, що такий спосіб не вимагає попереднього знання правил гри чи динаміки середовища, а також відкриває шлях до застосування потужних методів навчання та планування до безлічі ситуацій реального світу, для яких не існує ідеального симулятора, на якому можна було б вчити штучний інтелект.