Прості нейромережі краще обманюють оптичні ілюзії зі схожих кольорів

25 Листопада 2020 Джерело: Vision Research

Розробники штучного інтелекту експериментально підтвердили схильність згорткових нейромереж, що мають небагато згорткових шарів, обманюватися яскравістю та кольором оптичних ілюзій на тому ж рівні, що і люди. Результати цього дослідження підтверджують гіпотезу про появу низькорівневих зорових ілюзій як побічний ефект пристосування ока до середовища. Окрім того, з’ясувалося, що багатошарові нейромережі, навпаки не піддаються впливу ілюзій, повідомляють вчені у статті, опублікованій у журналі Vision Research.

Навіщо спантеличувати комп’ютерний зір?

Оптичні ілюзії виникають при помилках зорового сприйняття: статичні об'єкти здаються рухомими, двомірні - об'ємними, а рівні фігури - спотвореними. Їхня поява безпосередньо залежить від форми і змісту зображення: наприклад, при сприйнятті об'єктів на контрастному тлі спостерігається явище іррадіації, коли сам об'єкт здається більше через свого фону. Механізми сприйняття оптичних ілюзій вивчені погано, але вважається, що їх причина - невідповідність між оком і роботою зорової кори, яка обробляє сприйняту інформацію.

А оскільки згорткові нейронні мережі(convolutional neural network, CNN) побудовані на основі схожого біологічного процесу, тобто окремі нейрони їхньої “зорової кори” реагують на певні стимули у полі зору, то, певно, вони і самі можуть потрапляти під дію оптичних ілюзій. Це може стати проблемою, оскільки саме згорткові нейромережі використовують в різних автономних системах, наприклад, для розпізнавання облич, транспортних засобів, а зокрема для вивчення і власне людської зорової системи. На сьогодні вже є кілька робіт, які показали, що згоркові нейромережі, яких навчали на природних зображеннях, якісно реагують на оптичні ілюзії, так само як і люди, а деякі навіть самостійно вигадують рухові ілюзії, коли прогнозують подальший хід відеозапису.

Як вдалося ввести нейромережу в оману?

У своїх експериментах інженери досліджували прості архітектури нейромереж, тобто з двох або чотирьох згорткових шарів, а також складні - 17- та 21-шарові. Якісний аналіз показав, що більш прості мережі дійсно в більшості випадків реагують, так само як люди, а більш складні навпаки - або зовсім не реагують, або мають меншу величину спотворення, ніж бачать люди. Хоча кількісний аналіз демонструє, що на ілюзії, пов’язані з кольором, інакше реагують і прості архітектури: якщо людина реагує більше на ілюзії, засновані на контрасті, то нейромережі - на злиття кольорів. Кольорові ілюзії визначає контекст - сприйняття об’єкту залежить від його фону. Деякі зумовлені контрастом, а деякі навпаки - подібністю кольорів. Реакцію нейромережі інтерпретували за зміщенням її уваги у певному напрямку: реагує вона більше на темні області зображення, чи навпаки, або її спантеличують вхідні відтінки, певні кольори на зображенні.

То комп’ютерний зір не точніший за людський?

Вивчення подібностей та відмінностей між людським і комп’ютерним зором - досить молодий напрямок досліджень. Ми знаємо, що згорткові нейромережі не вміють копіювати більшість перцептивних, тобто сприйняттєвих феноменів, навіть якщо мають сильно розвинуту мережу нейронів та не поступаються ефективності людини в таких зорових задачах, як розпізнавання облич або класифікація об'єктів. Ця робота розширює ці початкові висновки про візуальні ілюзії, які обманюють нейронні мережі. Вчені дійшли висновку, що більш складні архітектури не піддаються впливу ілюзій, а прості все ж мають не повністю ідентичну людській реакцію та іноді реагують зовсім навпаки.