Технології
Технології

Штучний інтелект навчився на чотирьох бітах

Розробникам з IBM вдалося навчити нейромережу всього на чотирьох бітах даних замість стандартних 16. Так потужні нейромережі зможуть навчатися і на смартфонах з тією ж швидкістю, та меншим енергоспоживанням. Роботу розробники представили на конференції з машинного навчання NeurIPS, на сайті якої можна ознайомитися зі статтею.

Чим менша кількість бітів, тим менше деталей має фотографія / technologyreview.com

Чим менша кількість бітів, тим менше деталей має фотографія / technologyreview.com

Чому розробникам не вистачало 16 бітів?

Глибинне навчання — часто неефективна витрата енергії, адже для цього потрібні величезні обсяги даних і величезні обчислювальні ресурси, що збільшує споживання електроенергії. Але даних стає все більше і моделі нейромереж сягають гігантських розмірів, навчаючись на мільярдах точок даних протягом декількох днів. Тому навчання на даних зі зниженою точністю стало фактичним методом підвищення продуктивності та енергоефективності глибокого навчання.

У цій роботі дослідники демонструють рішення з використанням 4-бітного формату для переважної більшості обчислень, необхідних під час навчання глибинних нейромереж. Їхня ідея полягає в зменшенні кількості бітів, необхідних для представлення даних — з 16 бітів, поточного галузевого стандарту, до чотирьох. Це новий варіант обчислень с плаваючою комою, схеми округлення, а також нові методи масштабування градієнта. Такі методи, за словами розробників, дають змогу використовувати розроблені нейромережі із незначною втратою точності для цілого ряду тестів глибокого навчання. Робота може збільшити швидкість і скоротити витрати енергії, необхідні для глибинного навчання, більш ніж в сім разів. Це також може зробити можливим навчання потужних моделей штучного інтелекту на смартфонах і інших невеликих пристроях, що поліпшить конфіденційність, допомагаючи зберігати особисті дані на локальному пристрої.

Як можна зменшити кількість необхідних бітів?

Більшість ноутбуків у наші дні — це 64-розрядні комп'ютери, що означає, що вони можуть використовувати таку кількість бітів для кодування кожного фрагменту даних або окремої операції. Чим вища розрядність процесора і чим вища його тактова частота — тим більший обсяг даних він може обробляти і тим вища його загальна продуктивність. 4-бітний комп'ютер означає, що кожне число, яке ми використовуємо в процесах навчання, повинно бути одним з 16 цілих чисел від -8 до 7. Це ж стосується даних, які ми вводимо в нейронну мережу, чисел, які використовуємо для їхньої презентації нейронній мережі.

Нейромережі складаються з декількох шарів зважених сум: кожна дає число, яке або говорить про те, що в цих даних, ймовірно, є якась ознака, або його там її, ймовірно, немає. Ці шари комбінують, наприклад, необроблені зображення в набори ознак, і рекомбінують, щоб в результаті прийти до відповіді. Нейромережі потрібно відносно багато обчислювальних потужностей, пам'яті і часу на роботу саме через те, що потрібні числа з плаваючою комою для аналізу сегментів (чорні кола, трикутники, очі, роти на фото). Щоб комп'ютер міг зрозуміти чорно-білі зображення, ми їх переносимо в числа: скажімо, 0 для чорного, 1 для білого і десяткові дроби між відтінками. Але через те, що 4-бітний комп'ютер розуміє тільки цілі числа, -3,5 округляється до -4, а значить деякі сірі відтінки і разом з ними точність зображення — губляться. І для нейронної мережі це ускладнює обробку даних і видачу результатів.

Що зробили інженери?

Дослідники створили наскрізне 4-бітове глибинне навчання нейронної мережі, використовуючи комбінацію нового формату швидких перетворень Фур’є, щоб забезпечити подання градієнтів з широким динамічним діапазоном, а також пошарове навчання масштабуванням градієнта, який вирівнює градієнти за діапазоном і забезпечує двофазний процес квантування. Це дає змогу мінімізувати як середньоквадратичні, так і очікувані помилки, масштабуючи ці проміжні (відтінкові) числа логарифмічно.

Apple і Google, наприклад, все частіше прагнуть перенести процес навчання своїх моделей, таких як системи перетворення мови в текст і автозаміни, з хмар на телефони користувачів. Це зберігає конфіденційність користувачів, збираючи і зберігаючи дані на їх власному пристрої, при цьому покращуючи можливості штучного інтелекту пристрої. Дослідники IBM провели кілька експериментів, в яких моделювали 4-бітове навчання для різних моделей глибинних нейромереж в області комп'ютерного зору, мови і обробки мови. Результати показують в сім разів швидший процес і в сім разів більшу енергоефективністю порівняно з 16-бітним. На їхню думку, залишається ще кілька кроків, перш ніж 4-бітове глибоке навчання стане реальною практикою. У статті поки тільки моделюються результати такого навчання. Для використання цього на практиці буде потрібно нове 4-бітове обладнання — щоб прискорити процес розробки і виробництва такого обладнання, у 2019 IBM Research відкрила Центр обладнання штучного інтелекту.


Читайте також
Фізика
Технології
Надшвидка камера «впіймала» оптичний хаос
Технології
Хороші новини
Але є і хороші новини. Технології у 2020