Команда
Yandex Monium

Создаем observability-платформу, чтобы пользователи могли просто и быстро получать ответ о состоянии их систем в любой момент и в любом окружении

10 лет

разработки собственного продукта, которым пользуется весь Яндекс

16 000

пользователей работают с Yandex Monium ежемесячно

3 млрд

сэмплов в секунду записываются в метрики

44 млн

спанов в секунду записываются в трейсинг

22 млн

алертов рассчитываются ежеминутно

60 ГБ

данных в секунду поступает в логгинг

Рассказываем о нашей работе

Вызовы, которые перед нами стоят

Развитие единой платформы Yandex Monium для сервисов Яндекса и клиентов Yandex Cloud

Платформа предоставляет пользователям единое окно входа для получения информации о состоянии их систем, а также инструменты для быстрой локализации проблем за счёт использования всего многообразия телеметрии, имеющейся в платформе

Выход на внешние рынки

Сейчас основные пользователи платформы — сервисы Яндекса, для которых команда разрабатывает решения с учётом внутренних требований компании.

Теперь перед нами стоит вызов — адаптировать эти решения для внешнего мира, где пользователи привыкли жить не так, как команды Яндекса

Предоставление агрегированных инсайдов из коробки

Довольно часто, мониторинг — это большие массивы сырых данных. Важно из всего потока извлекать полезную информацию и представлять её пользователю в удобном формате.

Например, показывать агрегированную картину по числу и характеру ошибок в системе, а также их корреляции с другими данными

Предоставление телеметрии «из коробки»

Каждый раз, при запуске нового приложения или вводе в эксплуатацию нового оборудования, нашим пользователям приходится решать задачу их мониторинга — сбора телеметрии, создания дашбордов, алертов и других важных составляющих.

И нам необходимо облегчать для них эту задачу — предоставлять автоинструментацию для типовых решений, шаблоны популярных дашбордов и алертов, автоматический мониторинг используемых ими ресурсов и многое другое

Обеспечение отказоустойчивости

Стабильность инструментов Observability имеет критическое значение для сервисов Яндекса и внешних клиентов.

Без телеметрии останавливаются многие процессы как внутри отдельных сервисов, так и на уровне всей компании.

Сервисы Observability особенно важны в случае инцидентов, поэтому инструменты должны оставаться доступными даже при отказах собственных критических зависимостей

Масштабирование системы и снижение стоимости телеметрии

Чтобы обеспечивать рост нагрузки, необходимо непрерывно работать над масштабированием сервисов Observability.

С ростом нагрузки существующие архитектурные решения могут перестать масштабироваться, что требует новых решений.

Так, сервис алертинга отлично масштабировался до 10 млн алертов, но, чтобы обеспечить рост до сотен миллионов алертов, команде понадобилось вносить множество изменений в архитектуру

Повышение скорости работы и доставки телеметрии

Пользователям важно получать данные телеметрии практически мгновенно. Это критически важно в момент инцидента, когда каждая секунда на счёту.

Например, в логах, где данных очень много (50 ГБ в секунду), пользователи хотят видеть информацию в интерфейсе менее чем через 10 секунд.

Если поиск по логам работает дольше 30 секунд, пользователи просто идут искать логи на хостах

Как мы работаем

Вся деятельность платформы разделена на отдельные направления. Например, развитие логов, трейсов, метрик или общеплатформенных компонентов. Каждым направлением занимается выделенная команда опытных менеджеров и разработчиков. Такое разделение позволяет команде накапливать контекст и целиком отвечать за развитие своего направления

Мы сами занимаемся эксплуатацией собственных сервисов (DevOps), что обеспечивает гибкость и надёжность инфраструктурных процессов, а также позволяет команде лучше понимать точки для будущего роста сервисов

Используем в работе продуктовый подход: проводим CustDev, собираем, анализируем метрики и на основе полученных данных принимаем решения о развитии продуктов

Мы прислушиваемся к мнению всех членов команды, которые сами являются активными пользователями платформы, что позволяет легко влиять на развитие как сервисов в своей зоне ответственности, так и на платформу в целом и отдельныее ее направления

Напишите нам

Владимир Гордийчук

CTO Yandex Monium

Связаться

Полина Димова

Старший рекрутер Yandex Cloud

Связаться

Смотреть все

Команда Yandex Monium

Команда
Yandex Monium