Яндекс — это прежде всего технологическая компания, разрабатывающая тысячи внешних и внутренних сервисов. Большинство из них работает в кластерах инфраструктурного облака, насчитывающего десятки тысяч серверов, на которых работают сотни тысяч экземпляров приложений.
Наша команда занимается развитием облачной инфраструктуры Яндекса. Мы разрабатываем и эксплуатируем системы автоматизации управления серверами в кластере. Наша задача — повышение надежности, доступности, масштабируемости и производительности сервисов Яндекса. Вы будете участвовать в разработке и эксплуатации систем автоматизации управления самыми большими кластерами Яндекса. Ваша работа будет включать разработку систем автоматизации, мониторинга и аналитики состояния серверов. Каждый день вы будете сталкиваться со сложными, нестандартными и интересными задачами.
====Обязанности:
- разрабатывать системы автоматизации в инфраструктурном облаке Яндекса;
- улучшать архитектуру систем управления и автоматизации работы кластера;
- делать инфраструктурное облако масштабируемым и высокодоступным;
- мониторить и автоматизировать каждую деталь большой системы;
- отвечать за «здоровье» и аптайм кластеров.
====Мы ждем, что вы:
- имеете опыт работы с Unix-системами (Linux или FreeBSD) более трех лет;
- понимаете, как пользовательские приложения взаимодействуют с ОС;
- имеете опыт программирования на языках (Python, C или C++) от трех лет;
- имеете опыт локализации и устранения проблем в больших и сложных системах;
- занимались построением или администрированием отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
- понимаете, как устроены сетевые протоколы и зачем нужна маршрутизация.
В работе мы используем Linux, Python, MySQL, MongoDB, Cassandra, Elliptics, Nginx, ZooKeeper, SaltStack, Porto, QEMU-KVM и множество собственных технологий, поэтому нам нужны люди, способные быстро разобраться в чем угодно.