Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
Кнууттила и Лоттгерс подчеркивают важность разделения двух понятий – собственно модели (физической или нейронной) и общего для них обеих математического шаблона. Они начинают статью со следующего наблюдения: «Одним из самых бросающихся в глаза фактов, обнаруживаемых при использовании современных средств моделирования, является известный феномен, суть которого в том, что одни и те же математические шаблоны соответствуют моделям, относящимся к совершенно разным областям».
У Джона Хопфилда, как и у многих исследователей AI, российские корни, его родители эмигрировали в конце XIX века из Российской Империи и получили в США физическое образование. Возможно, эта семейная близость психолога к физике позволила ему развить соображения, высказанные Литтлом. В статье «Нейронные сети и физические системы, обнаруживающие коллективные вычислительные способности» (Neural networks and physical systems with emergent collective computational abilities, 1982) он описал устройство полносвязной сети с симметричной матрицей связей более известий как сеть Хопфилда. Наравне с этим названием такие сети еще называют сетями, использующими модель Изинга (Ising model of a neural network).
Объединив нейронную и физическую модели, Хопфилд сумел перевести коннекционизм с уровня абстрактных рассуждений на прагматический уровень с возможными в будущем практическими приложениями. Таким образом он положил начало новой эре, той в которой мы живем сейчас, когда машинное обучение вытеснило с положения доминирующей парадигмы в науке об искусственном интеллекте символический подход.
По Хопфилду, нейронная сеть, которая изменяется во времени, подобна спиновому стеклу. Эта аналогия открыла возможность применить к машинному обучению математику, заимствованную из статистической физики! Сеть Хопфилда получила развитие в сети Хемминга предложенной Ричардом Липпманном в 1987 году. Сети Хопфилда и Хемминга остаются до нашего времени предметом изучения, наличие в них элементов ассоциативной памяти делает их полезными в задачах распознавания, но главное достижение Джона Хопфилда в том, что его работа стала первым камнем, вызвавшим лавину нынешнего массового распространения нейронных сетей и машинного обучения.
Машина Больцмана
Открытие Хопфилда прорвало плотину, с его работы начался активный поиск других шаблонов для моделей нейронных сетей. В 1985 году трое – математик Дэвид Окли, психолог Джеффри Хинтон и биолог Терри Сейновски опубликовали статью «Обучающий алгоритм для машины Больцмана» (A Learning Algorithm for Boltzmann Machines), они начали ее с замечания о том, что их работа служит развитием трудов Хопфилда. Статья начинается со слов: «Соответствие современных технологий сверхбольших интегральных схем VLSI архитектуре мозга стала источником возобновления интереса к коннекционизму. Такие схемы способны к долговременному хранению данных и обеспечению связей между элементами, подобными нейронам». В качестве средства для моделирования работы мозга, в идеале они видят некую многопроцессорную структуру, объединенную коммуникационной сетью, для нее они предложили название «Машина Больцмана», обратим внимание на слово машина. Оно было выбрано в честь австрийского физика Людвига Больцмана, одного из создателей статистической физики. Машина Больцмана может рассматриваться как стохастический генеративный вариант сети Хопфилда. Вероятность нахождения сети в конкретном состоянии соответствует известному в термодинамике распределению Больцмана.
Импульс, приданный Хопфилдом работам в области ANN, позволил последующим событиям развиваться с калейдоскопической быстротой. Многие из них были непосредственно связаны с Джеффри Хинтоном, что сделало его признанным лидером новой волны коннекционизма, которую можно назвать мэйнстримом. Старт состоялся в 1986 году, вместе с выходом в журнале Nature ставшей широко известной статьи «Представление обучения посредством метода обратного распространения ошибок» (Learning representations by backpropagating errors). Ее первым и основным автором был психолог-математик и видный представитель коннекционистского подхода Дэвид Румельхарт, а соавторами Джеффри Хинтон и Рональд Уилсон. В ней изложен алгоритм обратного распространения ошибки в приложении к многослойному персептрону Румельхарта, являющемуся частным случаем персептрона Розенблатта. Публикация статьи во всемирно известном журнале без упоминания предыстории backpropagating была неодобрительно встречена многим специалистами. Поскольку Румельхарт вскоре ушел из жизни, за это невольное упущение пришлось оправдываться Хинтону, это было впервые, другой случай описан выше. Но, если по существу, оппонентам не стоило поднимать волну, им следовало бы смириться с тем, что в истории науки и техники подобные прецеденты повторных открытий и изобретений далеко не редкость. Хорошо известны так называемые затяжные «патентные войны» между индивидуальными изобретателями или корпорациями.
В том же 1986 году Полом Смоленским (нельзя не обратить внимание на сходство фамилий с Минским, и у него тоже российские корни) была разработана собственная версия машины Больцмана, названная ограниченной (Restricted Boltzmann machine, RBM). RBM отличается способностью проходить обучение как без учителя, так и с учителем. В 2000-х годах RBM приобрела большую популярность и стала рассматриваться не как вариации машины Больцмана, а как особые компоненты в архитектуре сетей глубинного обучения. Дальнейшее развитие машина Больцмана получила в 2006 году в совместной работе Хинтона с его аспирантом Русланом Салахутдиновым, новую версию она назвали глубокой (Deep Boltzmann machine) в связи с тем, что она содержит множество уровней со скрытыми переменными. В 1989–90 годы отмечены активным вхождением Яна Лекуна в область ANN и глубокого обучения, он стал вторым после Хинтона лидером этого мэйнстрима. Работая в Bell Labs, он вместе с коллегами смог материализовать метод backpropagation на сверточной нейронной сети LeNet (Convolutional Neural Network, CNN) в приложении для распознавания рукописного текста на банковских чеках и на почтовых отправлениях. Ошибки при распознавании не превысили 1 %.
Канадская мафия
Ближе к середине прошлого десятилетия была накоплена критическая масса знаний в части глубокого обучения ANN. В таких случаях всегда, образно говоря, кто-то отрывается от пелотона и зарабатывает майку лидера, так было и, видимо, будет в науке всегда. В данном случае в роли лидера оказался Джеффри Хинтон, британский ученый, продолживший свою карьеру в Канаде. С 2006 года он сам и вместе с коллегами начал публиковать многочисленные статьи, посвященные ANN, в том числе и в научно-популярном журнале Nature, чем заслужил себе прижизненную славу классика. Вокруг него образовалось сильное и сплоченное сообщество, которое несколько лет работало, как теперь говорят, «в невидимом режиме». Его члены сами называют себя «заговорщиками глубокого обучения» (Deep Learning Conspiracy) или даже «канадской мафией» (Canadian mafia). Образовалось ведущее трио: Ян Лекун, Иешуа Бенджо и Джеффри Хинтон, их еще называют LBH (LeCun & Bengio & Hinton). Выход LBH из подполья был хорошо подготовлен и поддержан компаниями Google, Facebook и Microsoft. С LBH активно сотрудничал Эндрю Ын, работавший в МТИ и в Беркли, а теперь возглавляющий исследования в области искусственного интеллекта в лаборатории Baidu. Он связал глубинное обучение с графическими процессорами.
Сегодня машинное обучение ассоциируется с глубоким машинным обучением, то есть с одним из методов реализации машинного обучения, где средствами искусственных нейронных сетей имитируются структуры и функции мозга, поэтому его иногда еще называют структурным или иерархическим обучением. Термин Deep Learning раньше других использовали Рина Дехтер (1986) и Игорь Айзенберг (2000). Между тем японские специалисты утверждают, что именно они выдвинули идею, которую можно считать основой глубинного обучения, при этом называются имена Фукусимы Кунихико и Амари Сюнъити, также занимавшегося исследованием нейросетей.