Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шолле Ф. - Глубокое обучение на Python (Библиотека программиста) - 2023.pdf
Скачиваний:
6
Добавлен:
07.04.2024
Размер:
11.34 Mб
Скачать

1.3.Почему глубокое обучение? Почему сейчас?    49

1.3.ПОЧЕМУ ГЛУБОКОЕ ОБУЧЕНИЕ? ПОЧЕМУ СЕЙЧАС?

Две.ключевые.идеи.глубокого.обучения.для.решения.задач.распознавания.об- разов.—.сверточные.нейронные.сети.и.алгоритм.обратного.распространения. ошибки.—.были.хорошо.известны.уже.в.1989.году..Алгоритм.долгой.кратко- срочной.памяти.(Long.Short-Term.Memory,.LSTM),.составляющий.основу. глубокого.обучения.для.прогнозирования.временных.рядов,.был.предложен. в.1997.году.и.с.тех.пор.почти.не.модифицировался..Так.почему.же.глубокое. обучение.начало.применяться.только.с.2012.года?.Что.изменилось.за.эти.два. десятилетия?

В.целом.машинным.обучением.движут.три.технические.силы:

. оборудование;

. наборы.данных.и.тесты;

. алгоритмические.достижения.

Поскольку.эта.область.руководствуется.экспериментальными.выводами,.а.не. теорией,.алгоритмические.достижения.возможны.только.при.наличии.данных. и.оборудования,.пригодных.для.проверки.идей.(или,.как.это.часто.бывает,. для.возрождения.старых.идей)..Машинное.обучение.—.это.не.математика.и.не. физика,.где.прорывы.могут.быть.сделаны.с.помощью.ручки.и.бумаги..Это.инженерная.наука.

На.протяжении.1990-х.и.2000-х.годов.данные.и.оборудование.были.действи- тельно.узким.местом..Но.в.это.же.время.случилось.следующее:.интернет.значительно.развился,.а.для.рынка.игрового.программного.обеспечения.были.созданы. высокопроизводительные.графические.процессоры.

1.3.1. Оборудование

Между.1990.и.2010.годами.быстродействие.стандартных.процессоров.выросло. примерно.в.5000.раз..Сейчас.на.ноутбуке.можно.запускать.небольшие.модели. глубокого.обучения,.тогда.как.25.лет.назад.это.в.принципе.было.невозможно.

Однако.типичные.модели.глубокого.обучения,.используемые.для.распознавания. образов.или.речи,.требуют.вычислительной.мощности.на.порядок.больше,.чем. мощность.ноутбука..В.течение.2000-х.такие.компании,.как.NVIDIA.и.AMD,. вложили.миллионы.долларов.в.разработку.быстрых.процессоров.с.массовым. параллелизмом.(графических.процессоров.—.Graphical.Processing.Unit,.GPU). для.поддержки.графики.все.более.реалистичных.видеоигр.—.недорогих,.специа­ лизированных.суперкомпьютеров,.предназначенных.для.отображения.на.экране.

50    Глава 1. Что такое глубокое обучение

сложных.трехмерных.сцен.в.режиме.реального.времени..Эти.инвестиции.принесли.пользу.научному.сообществу,.когда.в.2007.году.компания.NVIDIA.выпу- стила.CUDA.(https://developer.nvidia.com/about-cuda).—.программный.интерфейс.для. линейки.своих.GPU..Теперь.несколько.GPU.могут.заменить.мощные.кластеры. на.обычных.процессорах.в.различных.задачах.с.возможностью.массового.распараллеливания.вычислений.(в.том.числе.начиная.с.физического.моделирования).. Глубокие.нейронные.сети,.выполняющие.в.основном.умножение.множества.маленьких.матриц,.также.допускают.высокую.степень.распараллеливания,.поэтому. ближе.к.2011.году.некоторые.исследователи.начали.писать.CUDA-реализации. нейронных.сетей..Одними.из.первых.стали.Дэн.Кайесан1 .и.Алекс.Крижевски2.

Таким.образом.игровая.индустрия.субсидировала.создание.суперкомпьютеров. для.следующего.поколения.приложений.искусственного.интеллекта..Действительно,.иногда.крупные.достижения.начинаются.с.игр..Современный.графический.процессор.NVIDIA.Titan.RTX,.в.конце.2019.года.стоивший.2500.долларов. США,.способен.выдать.пиковую.производительность.16.терафлопс.с.одинарной. точностью.(16.триллионов.операций.в.секунду.с.числами.типа.float32)..Это.почти.в.500.раз.больше.производительности.самого.быстрого.по.состоянию.на. 1990.год.суперкомпьютера.Intel.Touchstone.Delta..Графическому.процессору. Titan.RTX.требуется.всего.несколько.часов.для.обучения.модели.ImageNet,. выигравшей.конкурс.ILSVRC.в.2012–2013.годах..Между.тем.большие.компа- нии.совершенствуют.модели.глубокого.обучения.на.кластерах,.состоящих.из. сотен.GPU.

Более.того,.индустрия.глубокого.обучения.вышла.за.рамки.GPU.и.инвестировала. средства.в.развитие.еще.более.специализированных,.эффективных.процессоров.для.глубокого.обучения..В.2016.году.на.ежегодной.конференции.Google. I/O.компания.Google.продемонстрировала.свой.проект.тензорного.процессора. (Tensor.Processing.Unit,.TPU).с.новой.архитектурой,.предназначенного.для. использования.в.глубоких.нейронных.сетях,.намного.более.производительного. и.энергоэффективного,.чем.топовые.модели.GPU.

В.2020.году.было.представлено.третье.поколение.карты.TPU.с.вычислительной. мощностью.420.терафлопс..Это.в.10.000.раз.больше.мощности.Intel.Touchstone. Delta.1990.года.

Данные.карты.TPU.предназначены.для.сборки.крупномасштабных.конфигураций,.называемых.блоками.или.подами.(pods)..Один.блок.(1024.карты.TPU). имеет.максимальную.производительность.100.петафлопс..Для.сравнения.—.это.

1. См..статью .Flexible, .High .Performance .Convolutional .Neural .Networks .for .Image. Classification.в.материалах.22-й.Международной.конференции.по.искусственному. интеллекту.(2011),.www.ijcai.org/Proceedings/11/Papers/210.pdf.

2. См..статью.ImageNet.Classification.with.Deep.Convolutional.Neural.Networks.в.журнале. Advances.in.Neural.Information.Processing.Systems,.№.25.(2012),.http://mng.bz/2286.

1.3. Почему глубокое обучение? Почему сейчас?    51

около.10.%.пиковой.вычислительной.мощности.современного.крупнейшего. суперкомпьютера.IBM.Summit.в.Национальной.лаборатории.Ок-Риджа,.ко- торый.состоит.из.27.000.графических.процессоров.NVIDIA.и.имеет.пиковую. вычислительную.мощность.около.1,1.эксафлопса.

1.3.2. Данные

Иногда.ИИ.называют.новой.индустриальной.революцией..И.если.глубокое.об- учение.—.ее.паровой.двигатель,.то.данные.—.это.уголь:.сырье,.питающее.наши. интеллектуальные.машины,.без.которого.невозможно.движение.вперед..Вдобавок. к.экспоненциальному.росту.емкости.устройств.хранения.информации,.наблюдавшемуся.в.последние.20.лет.(согласно.закону.Мура),.перемены.в.игровом.мире. вызвали.бурное.развитие.интернета,.благодаря.чему.появилась.возможность. накапливать.и.распространять.очень.большие.объемы.данных.для.машинного. обучения..В.настоящее.время.крупные.компании.работают.с.коллекциями.изображений,.видео.и.текстовых.материалов,.которые.невозможно.было.бы.собрать. без.интернета..Например,.изображения.на.сайте.Flickr,.классифицированные. пользователями,.стали.золотой.жилой.для.разработчиков.моделей.распознавания.образов..То.же.можно.сказать.о.видеороликах.на.YouTube..А.«Википедия». теперь.считается.ключевым.источником.наборов.данных.для.задач.обработки. естественного.языка.

Если.и.есть.набор.данных,.ставший.катализатором.для.развития.глубокого.обучения,.то.это.коллекция.ImageNet,.включающая.1,4.миллиона.изображений,. классифицированных.вручную.на.1000.категорий.(каждое.изображение.отнесено.только.к.одной.категории)..Но.особенной.коллекцию.делает.не.только. ее.огромный.размер,.но.и.ее.применение.во.время.ежегодных.соревнований1.

Как.показывает.пример.Kaggle,.публичные.конкурсы.—.отличный.способ.мо- тивации.исследователей.и.инженеров.преодолевать.все.новые.и.новые.рубежи..

Наличие.общих.критериев.оценки.достижений.участников.значительно.помогло.недавнему.росту.глубокого.обучения,.подчеркнув.его.преимущества.перед. классическими.подходами.к.машинному.обучению.

1.3.3. Алгоритмы

Кроме.оборудования.и.данных,.до.конца.2000-х.нам.не.хватало.надежного. способа.обучения.очень.глубоких.нейронных.сетей..Как.результат,.нейронные. сети.оставались.довольно.неглубокими,.имеющими.один.или.два.слоя.представления;.в.связи.с.этим.они.не.могли.противостоять.более.совершенным.

1. Соревнования.по.распознаванию.изображений.ImageNet.Large.Scale.Visual.Recognition. Challenge.(ILSVRC),.www.image-net.org/challenges/LSVRC.

52    Глава 1. Что такое глубокое обучение

поверхностным.методам,.таким.как.метод.опорных.векторов.и.случайные.леса..

Ключевой.проблемой.было.распространение градиента.через.глубокие.пакеты. слоев..Сигнал.обратной.связи,.используемый.для.обучения.нейронных.сетей,. по.мере.увеличения.количества.слоев.затухал.

Ситуация.изменилась.в.2009–2010.годах.с.появлением.некоторых.простых,.но. важных.алгоритмических.усовершенствований,.позволивших.улучшить.распространение.градиента:

. улучшенные.функции активации;

.улучшенные.схемы инициализации весов,.начиная.с.предварительного.послойного.обучения.(от.которого.быстро.отказались);

. улучшенные.схемы оптимизации,.такие.как.RMSProp.и.Adam.

Только.когда.эти.усовершенствования.позволили.создавать.модели.с.десятью.слоями.и.более,.глубокое.обучение.получило.свое.развитие..А.в.2014,.2015.и.2016.годах.были.открыты.еще.более.продвинутые.способы.распространения.градиента,. такие.как.пакетная.нормализация,.обходные.связи.и.отделимые.свертки.

В.настоящее.время.мы.можем.обучать.с.нуля.модели.с.произвольной.глубиной..

Это.открыло.возможность.использования.чрезвычайно.больших.моделей,.обладающих.значительной.репрезентативной.силой,.то.есть.способных.кодировать. обширнейшие.пространства.гипотез..Чрезвычайная.масштабируемость.—.одна. из.определяющих.характеристик.современного.глубокого.обучения..Архитектуры.крупномасштабных.моделей,.включающие.десятки.слоев.и.десятки. миллионов.параметров,.позволили.достичь.важных.рубежей.в.области.распо­ знавания.образов.(архитектуры.ResNet,.Inception.или.Xception).и.в.обработке. естественного.языка .(большие .архитектуры .на .основе .Transformer: .BERT,. GPT-3.или.XLNet).

1.3.4. Новая волна инвестиций

Как.отметили.ведущие.исследователи,.в.2012–2013.годах.глубокое.обучение. вывело.на.новый.современный.уровень.распознавание.образов.и.в.конечном. счете.все.задачи.распознавания..За.этим.последовала.постепенно.нарастающая. волна.инвестиций.в.индустрию,.намного.превосходящая.все.предыдущие,.наблюдавшиеся.в.истории.ИИ.

В.2011.году,.как.раз.перед.тем,.как.глубокое.обучение.вышло.на.лидирующие. позиции,.общие.инвестиции.венчурного.капитала.в.ИИ.по.всему.миру.соста- вили.меньше.одного.миллиарда.долларов.—.эти.деньги.почти.полностью.ушли. на.практическое.применение.методов.поверхностного.машинного.обучения.. К.2015.году.вложения.превысили.пять.миллиардов,.а.в.2017.достигли.ошеломляющих.16.миллиардов.(рис..1.14)..За.эти.несколько.лет.появились.сотни.

1.3. Почему глубокое обучение? Почему сейчас?    53

стартапов,.пытающихся.извлечь.выгоду.из.поднявшейся.шумихи..Между.тем. крупные.компании,.такие.как.Google,.Amazon.и.Microsoft,.инвестировали.деньги. в.исследования,.проводившиеся.внутренними.подразделениями,.и.объемы.этих. инвестиций.почти.наверняка.превысили.вложения.венчурного.капитала.

Рис. 1.14. Оценка ОЭСР общего объема инвестиций в стартапы ИИ

(источник: http://mng.bz/zGN6)

Машинное.обучение.—.и.глубокое.обучение.в.частности.—.заняло.центральное. место.в.стратегии.продуктов.этих.технологических.гигантов..В.конце.2015.года. генеральный.директор.Google.Сундар.Пичаи.отметил:.«Машинное.обучение.—. это.основа.для.решительной.смены.системы.координат.в.оценивании.всей.нашей. деятельности..Мы.вдумчиво.применяем.его.во.всех.наших.продуктах,.будь.то. поиск,.реклама,.YouTube.или.Play..И.мы.с.самого.начала.—.и.систематически.—. применяем.машинное.обучение.во.всех.этих.областях»1.

Благодаря.волне.инвестиций.менее.чем.за.десять.лет.число.людей,.работающих. над.глубоким.обучением,.увеличилось.с.нескольких.сотен.до.десятков.тысяч,. а.прогресс.в.исследованиях.достиг.небывалого.уровня.

1 . Pichai S..Alphabet.earnings.call..Oct..22,.2015.