В обучении нейросетей достигнута производительность 15 петафлопс

В обучении нейросетей достигнута производительность 15 петафлопс
Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач.

Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие как FP16 или даже INT8.

 

В обучении нейросетей достигнута производительность 15 петафлопс

 

В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядра Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс соответственно, а масштабируемость достигла показателя 6173.

 

В обучении нейросетей достигнута производительность 15 петафлопс

 

К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72%, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42%. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.

 

Источник: TOP500.