Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
Были и другие предшественники глубокого обучения, но оно «заработало» и смогло занять свое нынешнее место только после того, как было дополнено еще методом backpropagation. Этот метод применим для сверточных нейронных сетей CNN (Convolutional Neural Network), которые можно рассматривать как подобие зрительной коры, работа которой связана с активацией определённого набора простых клеток. Такие сети являются многослойными и однонаправленными (feedforward neural network).
Как любую новацию, глубокое машинное обучение, ставшее основой нынешнего AI-бума, не обошли раздоры, связанные с приоритетом. Так уж сложилось, что авторами всего того технологического богатства, которым располагает человечество, были тысячи и тысячи людей, но только избранных называют первыми. Любой приоритет условен, изобретения появляются в благоприятное для них время, когда возникают необходимые условия и предпосылки. Вот и сейчас вся публичная слава создателей глубокого обучения, а заодно и «отцов современного AI», досталась трио Хинтон-Лекун-Бенджо, но в тени остался швейцарец Юрген Шмидхубер, работающий в альтернативном направлении, которое называется долгая краткосрочная память LSTM (Long Memory).
В марте 2019 Тьюринговская награда 2018 года, аналог Нобелевской премии в компьютинге, была присуждена Джеффри Хинтону, Янну Лекуну и Джошуа Бенджо. В отличие от подавляющего большинства других тьюринговских и тем более нобелевских лауреатов, остающихся после получения наград в своих лабораториях, эти трое и их ближайшие сотрудники вышли в мир бизнеса, продолжая свои исследования в сотрудничестве с крупнейшими компаниями Google, Facebook, другими крупными вендорами, многие создали свои собственные предприятия.
Нельзя исключать, что восхождение ко всемирной славе, по своей стремительности сравнимое с превращением Золушки, стало неожиданностью для них самих, ничто из того, чем они занимались 20 лет назад, не могло этого предвещать. В роли феи оказалась совсем небольшая по численности канадская благотворительная организация CIFAR (Canadian Institute for Advanced Research), выступающая в роли распорядителя средств, выделяемых правительством Канады и провинции Квебек с 1982 года. Свою миссию CIFAR видит в периодической концентрации средств и внимания на какой-то актуальной программе, привлекая для этой цели временные немногочисленные коллективы специалистов из разных стран. Время жизни каждой из программ составляет 10–15 лет, их было порядка полутора десятков, но самой известной из них, принесшей известность CIFAR, стала Neural Computation & Adaptive Perception program, открытая в 2004. К ней были привлечены нынешние тьюринговские лауреаты, а также специалисты по смежным специальностям: в том числе биологи, психологи, физики. Не будь этого импульса, на подиуме могли бы оказаться иные люди.
Спонсирование со стороны CIFAR позволило Хинтону, создававшему «временный трудовой коллектив», привлечь Лекуна и Бенджо с которыми он был связан общими научными интересами с конца 80-х. Сейчас трудно представить, что тогда исследования в области нейронных сетей представляли интерес только для чрезвычайно узкого круга, как их тогда называли, заговорщиков (cabal-like group), а их проекты вероотступническими (renegade). В те скудные времена (lean times) никто не верил будущее нейронных сетей.
Лекун вспоминает: «Период между серединой 90-х и серединой 00-х был мрачным, невозможно было опубликовать ни одной статьи по нейронным сетям, все потеряли интерес к ним. Сети имели плохую репутацию, и на них практически распространялось своего рода табу». Ситуация стала меняться по результатам очередного конкурса по распознаванию изображений ILSVRC (ImageNet ImageNet Large Scale Visual Recognition Challenge), прошедшего в 2012. Основателем этого соревнования стала профессор Стэнфордского университета Фей-Фей Ли, которой в голову пришла оригинальная идея переноса центра тяжести исследований в области AI с моделей и алгоритмов на распознавание изображений сетевыми средствами. Для того чтобы их обучать, потребовалась большая база изображений, названная ImageNet, в качестве прототипа для нее Ли использовала разработанную в Принстонском университете лексическую базу данных английского языка WordNet, представляющую собой тезаурус и набор семантических сетей для английского языка. Вторым идейным источником для ILSVRC стал конкурс PASCAL VOC challenge, учрежденный в 2005, из названия которого следует, что он был нацелен на деление изображений на классы VOC (visual object classes).
С каждым очередным конкурсом ILSVRC точность распознавания возрастала и переломный момент произошел в 2012 году, когда конволюционная нейронная сеть CNN, названная AlexNet, показала результат, равный 16 %. В последующие годы он регулярно повышался, и вскоре сеть могла распознавать изображения лучше человека. Но при этом надо учитывать условность этого сравнения, сеть способна распознавать только определенные, заданные ей типы объектов, в то время восприятие человека этим не ограничено и он способен выносить суждения о распознанных объектах. В создании AlexNet ведущую роль сыграли двое – Алекс Крыжевский, его имя вошло в название сети, и его коллега Илья Сутскевер, оба на тот момент они были аспирантами Джеффри Хинтона в Торонтском университете. Любопытно то, что работа была сделана вопреки сомнениям Хинтона в возможности ее практической реализации. Сеть AlexNet написана на CUDA и работала на кластере, состоявшем из GPU, а ее теоретической основой была работа Яна Лекуна, написанная еще в 1989 году.
Инакомыслящие
Нередко общественное сознание переоценивает роль лидеров и, как следствие, может создаться ложное впечатление, будто кроме возглавляемого ими мэйнстрима ничего не существует. В области ANN, где сейчас работают тысячи исследователей и еще большее число разработчиков, как и в любом ином научно-технологическом направлении, есть многочленные близкие по отношению к мэйнстриму, но есть и отдаленные, а порой и вообще альтернативные направления. О соотношении между ними можно судить разнообразным рейтингам экспертов, входящих в элиту машинного обучения и нейронных сетей. Это самые разнообразные списки типа Top 5, 10 или 25 и т. п.
В большинстве из них на первой позиции лидер мэйнстрима Джеффри Хинтон, он абсолютный лидер, но на втором или на третьем стоит профессор Майкл Джордан, иногда он опережает Лекуна и Бенджо. Джордан преподает в университета Беркли, он обладает колоссальным научным авторитетом. В списках наиболее влиятельных ученых в Computer Science, составляемом журналом Science или порталом Guide2Research, Майкл Джордан существенно опережает Хинтона и других членов канадского ганга. С начала 80-х он разрабатывал когнитивные модели, основанные на рекуррентных нейронных сетях. Будучи статистиком, Джордан способствовал внедрению в машинное обучение байесовских сетей, представляющих собой множество переменных и их вероятностных зависимостей по Байесу.
В качестве постоянного оппонента Хинтону выступает немецко-швейцарский ученый Юрген Шмидхубер, профессор в Университете Лугано. В 1997 году Шмидхубер вместе со своим научным руководителем Сепплом Хохрайтером опубликовали статью Long short-term memory с описанием варианта рекуррентной нейронной сети (RNN), который они на несколько лет раннее назвали «Долгая краткосрочная память» (LSTM). Такое, на первый взгляд, нелогичное название не игра слов, оно имеет глубокие корни, идущие из психологии, где память делят на долговременную (long-term) и кратковременную рабочую (short-term). При объединении двух типов памяти в одной LSTM программа извлекает из short-term структуры, используемые для долговременного запоминания. Этот подход делает LSTM удобным для работы с последовательными данными, например текстами на естественных языках.
Более глубоким идейным оппонентом мэйнстриму является Хаим Самполинский, профессор Еврейского университета в Иерусалиме и профессор Гарвардского университета. Он автор множества работ, но наиболее доступно его позиция изложена вы статье «Глубокое обучение и альтернативные обучающие стратегии при ретроспективном анализе реальных клинических данных» (Deep learning and alternative learning strategies for retrospective real-world clinical data), написанной в соавторстве с коллегами. В ней признается, что в последние годы сочетание достижений в области машинного обучения в сочетании с доступной и недорогой электроникой позволили автоматизировать решение целого ряда сложных когнитивных задач.