YTsaurus — это целая инфраструктурная экосистема, состоящая из тесно переплетающихся друг с другом компонентов.

Слой хранения предоставляет несколько уровней: метаданные, статические таблицы для аналитических данных и транзакционное KV-хранилище для realtime-процессов.

Дата-инженеры Яндекса могут с помощью MapReduce-операций или SPYT-джобов обработать консистентный срез KV-словаря и статической таблицы с событиями. Над результатами этих вычислений менеджеры строят BI-витрины с помощью CHYT.

Аналитики выполняют ad hoc запросы над петабайтами логов на высокоуровневом языке YQL. ML-инженеры строят сложные графы вычислений для обучения моделей на GPU-кластерах под управлением YTsaurus. А команда YTsaurus обеспечивает всем надежную инфраструктуру, чтобы коллеги могли сосредоточиться на решении продуктовых задач.

Мы ждём опытных разработчиков для решения важных задач

Чем предстоит заниматься:

Масштабировать планировщик вычислительных ресурсов, который обслуживает десятки тысяч серверов.

Оптимизировать чтение данных для распределённых обучений на видеокартах.

Развивать инструменты сборки и тестирования YTsaurus для опенсорс.

Разрабатывать ресурсную
модель динамических таблиц.

YTsaurus в цифрах

40 тыс

серверов работают над управлением YT во всех дата-центрах Яндекса

2.2

экзабайта на HDD, SSD и NVME дисках используется для хранения информации

2млн

CPU-ядер обрабатывают данные 24×7

Команда

Мы искренне увлечены большими распределёнными системами и сложными техническими задачами. Многие из нас имеют академический опыт и до сих пор активно преподают — в МФТИ, ВШЭ, ШАД и других высших учебных заведениях. Несколько человек занимали топовые места в соревнованиях по спортивному программированию.

Мы следим за новостями индустрии и регулярно обсуждаем свежие доклады с VLDB, SIGMOD и CppCon, а иногда и сами выступаем, например на HighLoad++ и Hydra.

В команде сохраняется дух стартапа: дружно общаемся в рабочее и нерабочее время, вместе штурмуем задачи, экспериментируем и участвуем в CTF.

Работаем в Москве, Белграде, Ереване, Минске и других локациях, в том числе удалённо.

Ищем талантливых бэкенд-разработчиков с уверенным знанием структур данных и алгоритмов, а также опытом разработки распределённых систем. Пишем на C++, Java, Scala, Go/Python.

Смотреть вакансии

Ключевые разработчики

Максим Бабенко

Работает в Яндексе с 2008 года

Руководитель YTsaurus с основания проекта, технический лидер, архитектор. Занимается развитием мастер-сервера и динамических таблиц платформы. Руководитель программы «Инфраструктура больших данных» в ШАД, кандидат физико-математических наук.

Дмитрий Ермолов

Работает в Яндексе с 2008 года

Руководитель команды разработки SDK на C++, Java, Python, а также адаптации Apache Beam для работы с YTsaurus. Автор эффективного формата для работы со структурированными данными в MapReduce- вычислениях.

Амир Шакуров

Работает в Яндексе с 2012 года

Руководитель разработки мастер-сервера — хранилища метаданных кластера, в том числе дерева DFS, чанкового репликатора, системы разграничения прав доступа и квотирования ресурсов.

Руслан Савченко

Работает в Яндексе с 2014 года

Руководитель разработки динамических таблиц YTsaurus — шардированных key-value-таблиц и очередей с поддержкой распределённых транзакций и межкластерной репликацией. Преподаватель ШАД, автор курсов АКОС и БД.

Павел Сушин

Работает в Яндексе с 2008 года

Руководитель команды эксплуатации, которая занимается автоматизацией в области регламентных операций, деплоя и мониторинга кластеров. Отвечает за механизм запуска пользовательского кода и интеграцию с системами контейнеризации.

Андрей Солозобов

Работает в Яндексе с 2011 года

Руководитель команды разработки систем Nirvana и Reactor, которые позволяют описывать сложные графы обработки данных (в том числе через UI) и запускать их по расписанию и на основе триггеров.

Игнат Колесниченко

Работает в Яндексе с 2009 года

Руководитель разработки планировщика YTsaurus, обеспечивающего распределение ресурсов кластера. Руководитель системы YP — центрального менеджера сервисов во внутреннем облаке Яндекса. Преподаватель ШАД, руководитель научного семинара.

Андрей Ривкин

Работает в Яндексе с 2009 года

Руководитель группы продуктового развития YTsaurus. Руководил проектом по выходу исходного кода платформы в опенсорс, а также участвовал в запуске суперкомпьютеров Яндекса — они тоже управляются платформой YTsaurus.

Максим Бабенко

Работает в Яндексе с 2008 года

Руководитель YTsaurus с основания проекта, технический лидер, архитектор. Занимается развитием мастер-сервера и динамических таблиц платформы. Руководитель программы «Инфраструктура больших данных» в ШАД, кандидат физико-математических наук.

Дмитрий Ермолов

Работает в Яндексе с 2008 года

Руководитель команды разработки SDK на C++, Java, Python, а также адаптации Apache Beam для работы с YTsaurus. Автор эффективного формата для работы со структурированными данными в MapReduce- вычислениях.

Амир Шакуров

Работает в Яндексе с 2012 года

Руководитель разработки мастер-сервера — хранилища метаданных кластера, в том числе дерева DFS, чанкового репликатора, системы разграничения прав доступа и квотирования ресурсов.

Руслан Савченко

Работает в Яндексе с 2014 года

Руководитель разработки динамических таблиц YTsaurus — шардированных key-value-таблиц и очередей с поддержкой распределённых транзакций и межкластерной репликацией. Преподаватель ШАД, автор курсов АКОС и БД.

Павел Сушин

Работает в Яндексе с 2008 года

Руководитель команды эксплуатации, которая занимается автоматизацией в области регламентных операций, деплоя и мониторинга кластеров. Отвечает за механизм запуска пользовательского кода и интеграцию с системами контейнеризации.

Андрей Солозобов

Работает в Яндексе с 2011 года

Руководитель команды разработки систем Nirvana и Reactor, которые позволяют описывать сложные графы обработки данных (в том числе через UI) и запускать их по расписанию и на основе триггеров.

Игнат Колесниченко

Работает в Яндексе с 2009 года

Руководитель разработки планировщика YTsaurus, обеспечивающего распределение ресурсов кластера. Руководитель системы YP — центрального менеджера сервисов во внутреннем облаке Яндекса. Преподаватель ШАД, руководитель научного семинара.

Андрей Ривкин

Работает в Яндексе с 2009 года

Руководитель группы продуктового развития YTsaurus. Руководил проектом по выходу исходного кода платформы в опенсорс, а также участвовал в запуске суперкомпьютеров Яндекса — они тоже управляются платформой YTsaurus.

Технологии

Ядро системы написано на современном С++ с использованием собственной библиотеки асинхронного программирования на основе файберов. Мы не используем boost, но стараемся брать лучшее из кодовых баз таких проектов, как Chromium, LLVM, Folly и Abseil.

Мы поддерживаем и развиваем SDK для работы с YT на различных языках программирования: С++, Java, Golang и Python. Кроме того, мы работаем над более высокоуровневым API на основе Apache Beam.

Для запуска и изоляции пользовательского кода мы используем внутреннюю систему управления контейнерами Porto.

Управление кластерами осуществляется с помощью внутренних систем менеджмента сервисов. Используя их API, мы разрабатываем инструменты для автоматизации регламентных операций на Python и Go. Кроме того, мы разрабатываем собственный оператор для разворачивания YT в Kubernetes.

Процесс разработки

Планирование и распределение задач внутри команды происходит в свободной форме, мы работаем гибко, не привязываясь к методологиям. Задачи возникают не только как фичреквесты от пользователей, но часто внутри команды, в ответ на требования производительности, опыт эксплуатации и сравнение с конкурентами.

Мы практикуем обязательное code review, и тщательно следим за соблюдением единого стиля и подходов к разработке. Используем различные виды автотестов — юнит-тестирование, интеграционное тестирование, тестирование с использованием синтетической нагрузки и fault injection на тестовом окружении.

В Яндексе развёрнуто более 15 YT-кластеров, которые мы эксплуатируем и предоставляем другим командам as a service. В эксплуатации кластеров участвуют все разработчики: выкатывают релизы и хотфиксы, настраивают мониторинги, занимаются траблшутингом и помогают пользователям.

Статьи и выступления

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Highload++ 2021,
Игнатий Колесниченко

«Как сдержать самые сложные обещания: планирование batch-задач в системе Yandex.YT»

HighLoad 2021

Hydra 2020

Максим Бабенко «Erasure Coding at Scale»

Смотреть все

Команда YTsaurus

Мы ждём опытных разработчиков для решения важных задач

Масштабировать планировщик вычислительных ресурсов, который обслуживает десятки тысяч серверов.

Оптимизировать чтение данных для распределённых обучений на видеокартах.

Развивать инструменты сборки и тестирования YTsaurus для опенсорс.

Разрабатывать ресурсную модель динамических таблиц.

YTsaurus в цифрах

Команда

Ключевые разработчики

Процесс разработки

Разрабатывать ресурсную
модель динамических таблиц.