У Яндекса большой серверный парк, распределенный по нескольким локациям. Мы строим из серверов кластер, позволяющий автоматически управлять серверами и сервисами, и доводим его утилизацию до максимума. Для этого мы делаем для Яндекса общую облачную инфраструктуру: приватное облако. Сейчас наша система управляет примерно 80% мощностей компании — это десятки тысяч серверов в нескольких географически распределенных дата-центрах. На этих серверах запущены сотни тысяч экземпляров приложений, разрабатываемых специалистами компании.
Наша команда разрабатывает систему, которая предоставляет доступные вычислительные мощности внутренним потребителям.
====Наши задачи:
- автоматизировать процессы управления серверами;
- автоматизировать диагностику и устранение проблем с серверами;
- обеспечивать работоспособность серверной инфраструктуры Яндекса;
- предоставлять выделенные мощности внутренним потребителям.
====Мы ждем, что вы:
- разрабатывали на Python;
- умеете писать рабочий, поддерживаемый и тестируемый код;
- локализовывали и устраняли проблемы в распределенных системах;
- понимаете, как устроен стек TCP/IP;
- разрабатывали в POSIX-окружении;
- умеете разбираться в чужом коде;
- хотите работать в команде.
====Приветствуется, если вы:
- знаете Go, Bash;
- проектировали, разрабатывали и сопровождали высоконагруженные распределенные сервисы.
====Вам предстоит:
- разрабатывать, развивать и поддерживать систему автоматизации, которая управляет серверами внутреннего облака Яндекса;
- иметь дело с большими объемами данных;
- поддерживать синхронизацию систем и компонентов, создавать сложную распределенную систему, которая взаимодействует с большим количеством сервисов;
- разрабатывать и серверную часть распределенной системы, и утилиты, которые запускаются в командной строке;
- много взаимодействовать с командами RND, NOC, дата-центров, внутренней инфраструктуры, другими пользователями;
- очень быстро учиться и выполнять много других интересных задач.