Инженер доступности сервисов (SRE)

Яндекс — это прежде всего технологическая компания, разрабатывающая тысячи внешних и внутренних сервисов. Большинство из них работает в кластерах инфраструктурного облака, насчитывающего десятки тысяч серверов, на которых работают сотни тысяч экземпляров приложений.

Наша команда занимается развитием облачной инфраструктуры Яндекса. Мы работаем над надежностью, доступностью, масштабируемостью и производительностью сервисов Яндекса. Вы будете участвовать в эксплуатации и разработке систем автоматизации управления самыми большими кластерами Яндекса. Ваша работа будет включать разработку систем мониторинга и аналитики состояния серверов. Каждый день вы будете сталкиваться со сложными, нестандартными и интересными задачами.

====Обязанности:

  • отвечать за «здоровье» и аптайм множества сервисов;
  • улучшать архитектуру систем управления и автоматизации работы кластера;
  • делать инфраструктурное облако масштабируемым и высокодоступным;
  • мониторить и автоматизировать каждую деталь большой системы.

====Мы ждем, что вы:

  • имеете опыт работы с Unix-системами (Linux или FreeBSD) более трех лет;
  • понимаете, как пользовательские приложения взаимодействуют с ОС;
  • занимались построением или администрированием отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
  • понимаете, как устроены сетевые протоколы и зачем нужна маршрутизация;
  • имеете опыт программирования на языках (Python, C или C++) от трех лет;
  • имеете опыт локализации проблем в больших и сложных системах.

В работе мы используем Linux, Python, MySQL, MongoDB, Cassandra, Elliptics, Nginx, ZooKeeper, SaltStack, Porto, QEMU-KVM и множество собственных технологий, поэтому нам нужны люди, способные быстро разобраться в чем угодно.

Спасибо за отклик!

Мы свяжемся с вами в течение недели.

Fri Feb 09 2024 12:47:58 GMT+0300 (Moscow Standard Time)