Штучний інтелект навчився передбачати структури білків

Система глибинного навчання AlphaFold, остання розробка DeepMind, вирішила одне з головних біологічних завдань - передбачила структури десятків білків за кілька днів, що раніше могло займати роки. DeepMind та організатори всесвітнього експерименту з критичного аналізу методів для структурних передбачень білків(CASP) оголосили про нейромережевий алгоритм, який через кілька тижнів навчання зміг передбачити, у яку форму складуться білки з точністю до атома за їхньою амінокислотною послідовністю. Це відкриття допоможе вченим розробляти ліки, синтетичні білки та краще розуміти хвороби, пов’язані з невідомими білковими структурами, наприклад, малярію, повідомляють розробники у своєму блозі.

Два приклади моделей білків, де синій - комп’ютерне прогнозування, а зелений - експериментальні дані / deepmind.com

Два приклади моделей білків, де синій - комп’ютерне прогнозування, а зелений - експериментальні дані / deepmind.com

Що такого зробив ШІ?

“Проблема згортання білків” - одна з головних у біології, що виникла з 1970-х років, коли біохімік Крістіан Анфінсен встановив зв’язок між тим, яку тривимірну форму утворює білок та функціями, які він виконує в організмі. Це стало приводом до майже п’ятдесятирічного пошуку можливості передбачити структуру білку, ґрунтуючись лише на його лінійній послідовності амінокислот. Але це вкрай складне завдання, бо для розрахунків необхідно враховувати взаємодію між великою кількістю амінокислот. AlphaFold змогла спрогнозувати майбутню структуру білків з похибкою лише в 1.6 ангстрема, тобто в 0.16 нанометра - розміром з атом. Це набагато перевершує всі інші обчислювальні методи і вперше відповідає точності експериментальних - кріоелектронної мікроскопії, ядерного магнітного резонансу або рентгенівської кристалографії, які доволі дорогі, складні та вимагають роки спроб і помилок.

За 50 років ніхто не навчився розгадувати структуру білків?

Існує величезна кількість можливих форм для кожної послідовності, в якій білок міг би теоретично згорнутися, перш ніж осісти у своїй остаточній тривимірній структурі - повний перебір можливих конформацій зайняв би 1080 років. Однак у природі білки згортаються спонтанно, іноді за мілісекунди - дихотомія, яку іноді називають парадоксом Левінталя. Запуск CASP, “полігону” для тестування методів передбачення структури білків, в 1994 році став вагомим поштовхом: десятки міжнародних команд дослідників

раз на два роки змагаються у тому, чий метод моделювання найкраще передбачить ще неопубліковану, однак відому організаторам, майбутню форму 100 амінокислотних послідовностей. Але за стільки років жодний алгоритм не зміг наблизитися до лабораторної точності.

2018 року на “змаганнях” з’явилися британські розробники штучного інтелекту DeepMind - ті, що навчили нейромережу обходити професійних гравців в Ґо, шахи та StarCraft 2. Того ж року вони посіли перше місце на CASP, обійшовши інших учасників на шість пунктів у точності, а їхній алгоритм AlphaFold став основою й для інших розробників. Цього разу AlphaFold отримала оцінку відповідності моделювання фактичній формі білку вище 90 балів(за шкалою від 0 до 100), що означає, що будь-які відмінності між прогнозованою структурою і реальною можуть бути пов'язані з експериментальними помилками в лабораторії, а не з помилкою в програмному забезпеченні.

Що придумали DeepMind?

DeepMind навчав AlphaFold на прикладах приблизно 170 тисяч білків, взятих із загальнодоступного сховища послідовностей і структур. Алгоритм порівнював послідовності і шукав пари амінокислот, які часто опиняються близько одна до одної у вже складених структурах. Потім на основі цих даних він оцінював відстань між парами у білкових структурах, які ще не відомі. Повторюючи цей процес, система розвиває надійні прогнози базової структури білка і здатна визначати їх з високою точністю за лічені дні. Крім того, AlphaFold може оцінити, наскільки точні ці припущення. За словами розробників, навчання зайняло кілька тижнів за обчислювальної потужності, еквівалентній від 100 до 200 графічних процесорів.

Як це допоможе лікарям?

Більшість ліків спираються на інформацію про тривимірну будову біомішені та на способи впливу на неї. В ідеалі, комп’ютерне моделювання могло б передбачити вплив ще перед тим як сполука буде синтезована, а отже, доведеться синтезувати лише одну речовину, економлячи величезну кількість часу та коштів. AlphaFold дасть змогу і створювати ліки, і вивчати хвороби, розкриваючи особливості невідомих білкових структур. У довгостроковій перспективі прогнозування структури білка також допоможе розробити синтетичні білки, такі як ферменти, що перетравлюють відходи або виробляють біопаливо. DeepMind заявляє, що планує вивчати паразитарні хвороби, наприклад лейшманіоз, сонну хворобу і малярію.

парадоксом Левінталя
«проміжок часу, за який білок приходить до свого скрученого стану, на багато порядків менший, ніж якби білок просто перебирав всі можливі конфігурації»