Команда Yandex Monium

Помогаем пользователям просто и быстро получить однозначный ответ о состоянии рабочих систем в любой момент.

10 лет
разработки собственного продукта, которым пользуется весь Яндекс
16 000
пользователей работают с Observability Platform ежемесячно
3 млрд
сэмплов в секунду записываются в метрики
44 млн
спанов в секунду записываются в трейсинг
22 млн
алертов рассчитываются ежеминутно
60 ГБ
данных в секунду поступает в логгинг
Рассказываем о нашей работеДелимся опытом
Вызовы, которые перед нами стоят
Построение единой платформы Observability
В которую легко встраиваются другие сервисы для мониторинга. Платформа предоставляет пользователям единое окно входа для получения информации о состоянии систем и позволяет использовать множество типов телеметрии для понимания картины в целом.
Выход на внешние рынки
Сейчас основные пользователи платформы — сервисы Яндекса, для которых команда разрабатывает решения с учётом внутренних требований компании. Теперь перед нами стоит вызов — адаптировать эти решения для внешнего мира, где пользователи привыкли жить не так, как команды Яндекса.
Предоставление агрегированных инсайдов из коробки
Команда Observability работает с большим объёмом сырых данных. Важно из всего потока извлекать полезную информацию и представлять её пользователю в удобном формате. Например, показы... Команда Observability работает с большим объёмом сырых данных. Важно из всего потока извлекать полезную информацию и представлять её пользователю в удобном формате. Например, показывать агрегированную картину по числу и характеру ошибок в системе, а также их корреляции с другими данными.
Обеспечение отказоустойчивости
Стабильность инструментов Observability имеет критическое значение для сервисов Яндекса, Yandex Cloud и внешних клиентов. Без телеметрии останавливаются многие процессы как внутри отдельных сервисов, так и на... Стабильность инструментов Observability имеет критическое значение для сервисов Яндекса, Yandex Cloud и внешних клиентов. Без телеметрии останавливаются многие процессы как внутри отдельных сервисов, так и на уровне всей компании. Сервисы Observability особенно важны в случае инцидентов, поэтому инструменты должны оставаться доступными даже при отказах собственных критических зависимостей.
Масштабирование системы и снижение стоимости телеметрии
Чтобы обеспечивать рост нагрузки, необходимо непрерывно работать над масштабированием сервисов Observability. С ростом нагрузки существующие архитектурн... Чтобы обеспечивать рост нагрузки, необходимо непрерывно работать над масштабированием сервисов Observability. С ростом нагрузки существующие архитектурные решения могут перестать масштабироваться, что требует новых решений. Так, сервис алертинга отлично масштабировался до 10 млн алертов, но, чтобы обеспечить рост до сотен миллионов алертов, команде понадобилось вносить множество изменений в архитектуру.
Повышение скорости работы и доставки телеметрии
Пользователям важно получать данные телеметрии практически мгновенно. Это критически важно в момент инцидента, когда каждая секунда на счету. Например, в логах, где данн... Пользователям важно получать данные телеметрии практически мгновенно. Это критически важно в момент инцидента, когда каждая секунда на счету. Например, в логах, где данных очень много (50 ГБ в секунду), пользователи хотят видеть информацию в интерфейсе менее чем через 10 секунд. Если поиск по логам работает дольше 30 секунд, пользователи просто идут искать логи на хостах.
Как мы работаем
  1. Проектами занимается команда опытных разработчиков и менеджеров. Уровень компетенций инженеров позволяет решать задачи высокой технической сложности: они работают с распределёнными системами, алгоритмами, базами данных, сетью и многим другим.
  2. Мы сами занимаемся эксплуатацией собственных сервисов (DevOps), что обеспечивает гибкость и надёжность инфраструктурных процессов.
  3. Процессы планирования разделены на отдельные треки по основным группам сервисов. Такой гибкий подход даёт возможность для перехода между проектами платформы без сложных формальностей.
  4. Используем в работе продуктовый подход: проводим CustDev, собираем, анализируем метрики и на основе полученных данных принимаем решения о развитии продуктов.
Напишите нам
Владимир Гордийчук
CTO Yandex Monium
Полина Димова
Старший рекрутер
Yandex Cloud
Вакансии Yandex Monium