Инженер доступности сервисов (SRE)

Яндекс — это прежде всего технологическая компания, разрабатывающая тысячи внешних и внутренних сервисов. Большинство из них работает в кластерах инфраструктурного облака, насчитывающего десятки тысяч серверов, на которых работают сотни тысяч экземпляров приложений.

Наша команда занимается развитием облачной инфраструктуры Яндекса. Мы работаем над надежностью, доступностью, масштабируемостью и производительностью сервисов Яндекса. Вы будете участвовать в эксплуатации и разработке систем автоматизации управления самыми большими кластерами Яндекса. Ваша работа будет включать разработку систем мониторинга и аналитики состояния серверов. Каждый день вы будете сталкиваться со сложными, нестандартными и интересными задачами.

====Обязанности:

отвечать за «здоровье» и аптайм множества сервисов;
улучшать архитектуру систем управления и автоматизации работы кластера;
делать инфраструктурное облако масштабируемым и высокодоступным;
мониторить и автоматизировать каждую деталь большой системы.

====Мы ждем, что вы:

имеете опыт работы с Unix-системами (Linux или FreeBSD) более трех лет;
понимаете, как пользовательские приложения взаимодействуют с ОС;
занимались построением или администрированием отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
понимаете, как устроены сетевые протоколы и зачем нужна маршрутизация;
имеете опыт программирования на языках (Python, C или C++) от трех лет;
имеете опыт локализации проблем в больших и сложных системах.

В работе мы используем Linux, Python, MySQL, MongoDB, Cassandra, Elliptics, Nginx, ZooKeeper, SaltStack, Porto, QEMU-KVM и множество собственных технологий, поэтому нам нужны люди, способные быстро разобраться в чем угодно.