Теперь перед нами стоит вызов — адаптировать эти решения для внешнего мира, где пользователи привыкли жить не так, как команды Яндекса
Например, показывать агрегированную картину по числу и характеру ошибок в системе, а также их корреляции с другими данными
И нам необходимо облегчать для них эту задачу — предоставлять автоинструментацию для типовых решений, шаблоны популярных дашбордов и алертов, автоматический мониторинг используемых ими ресурсов и многое другое
Без телеметрии останавливаются многие процессы как внутри отдельных сервисов, так и на уровне всей компании.
Сервисы Observability особенно важны в случае инцидентов, поэтому инструменты должны оставаться доступными даже при отказах собственных критических зависимостей
С ростом нагрузки существующие архитектурные решения могут перестать масштабироваться, что требует новых решений.
Так, сервис алертинга отлично масштабировался до 10 млн алертов, но, чтобы обеспечить рост до сотен миллионов алертов, команде понадобилось вносить множество изменений в архитектуру
Например, в логах, где данных очень много (50 ГБ в секунду), пользователи хотят видеть информацию в интерфейсе менее чем через 10 секунд.
Если поиск по логам работает дольше 30 секунд, пользователи просто идут искать логи на хостах