Яндекс проектирует и производит собственные серверы и серверные стойки. Каждый сервер после сборки проходит жёсткое многодневное тестирование под максимальной нагрузкой, чтобы обнаруживать битую память, плохо смазанный вентилятор, неплотно вставленную в разъём карту GPU и другие неполадки. После тестирования стойки принимаются в эксплуатацию, и за состоянием аппаратного содержимого серверов начинает следить наше ПО: оно должно выявить поломку, например, жёсткого диска или планки памяти, выдать точную инструкцию для инженера ДЦ, а после замены сломанного компонента зарегистрировать транзакцию в системе учёта событий элементов оборудования.
Мы разрабатываем и поддерживаем всё ПО, задействованное в жизненном цикле аппаратного обеспечения как на этапе производства, так и во время работы в дата-центрах: тесты оборудования и системы управления этими тестами, ПО по мониторингу, учёту и инвентаризации оборудования. Ищем SRE (сисадмина), который вместе с командой разработки поможет развивать такие сервисы и следить за их работой.