Супер­компьютеры
Яндекса
Чтобы лучше помогать людям решать их задачи, Яндекс использует методы машинного обучения. Благодаря им мы получаем быстрые и точные ответы в Поиске, беседуем с Алисой как с живым человеком, смотрим видео сразу на родном языке и делаем множество других вещей.

Специально для задач машинного обучения в дата-центрах Яндекса появились три суперкомпьютера. Они носят имена российских учёных, работы которых определили то, как мы сегодня работаем с большими данными.

Червоненкис
В честь Алексея Червоненкиса, одного из крупнейших теоретиков машинного обучения.
19 место
Top500, ноябрь 2021
Количество узлов
199
Мощность
21 530

Тфлопс

Ядра
25 472
GPU
1 592

NVIDIA A100 80G

Оперативная память
199

ТБ

Энергопотребление
583

кВт

Галушкин
В честь Александра Галушкина, одного из главных исследователей теории нейронных сетей.
36 место
Top500, ноябрь 2021
Количество узлов
136
Мощность
16 020

Тфлопс

Ядра
17 408
GPU
1 088

NVIDIA A100 80G

Оперативная память
136

ТБ

Энергопотребление
330

кВт

Ляпунов
В честь Алексея Ляпунова — знаменитого математика, чьи работы лежат в основе компьютерных наук.
40 место
Top500, ноябрь 2021
Количество узлов
137
Мощность
12 810

Тфлопс

Ядра
17 536
GPU
1 096

NVIDIA A100 40G

Оперативная память
68,5

ТБ

Энергопотребление
323

кВт

Задачи на суперкомпьютерах запускаются через YTsaurus — разработанную в Яндексе опенсорс-платформу для хранения и обработки больших данных.
Оборудование
Суперкомпьютеры Яндекса работают на графических ускорителях NVIDIA A100 с интерконнектом InfiniBand на базе коммутаторов Mellanox. В основе лежит архитектура NVIDIA HGX A100, оптимизированная для задач машинного обучения, которые стоят перед Яндексом. Это позволило увеличить размер кластера и обучать самые большие ML-модели примерно вдвое быстрее, чем при стандартной архитектуре.
Суперкомпьютеры в числах
Данные рассчитаны за октябрь 2021 года по трём суперкомпьютерам Яндекса в сумме.
Ускорители NVIDIA A100, которые применяются в суперкомпьютерах Яндекса, доступны и в Yandex.Cloud. Любой пользователь может выбрать их при создании облачной инфраструктуры в составе виртуальной машины или в DataSphere — специализированном сервисе Яндекса для задач машинного обучения. В DataSphere любая компания может запустить разработку и эксплуатацию моделей машинного обучения, платя только за реальное время вычислений.
Wed May 15 2024 13:02:36 GMT+0300 (Moscow Standard Time)