Технический менеджер проектов отдела облачной инфраструктуры

Базовая инфраструктура, куда мы ищем технического менеджера, — Hardware as a Service для инфраструктурного облака, которое, в свою очередь, позволяет сотням команд внутри Яндекса запускать свои приложения в контейнерах на общем пуле серверов. Для понимания масштаба мы говорим о сотне тысяч серверов и миллионе контейнеров. Задача базовой инфраструктуры — предоставить вычислительные мощности для облака, начиная от разработки нужных для этого компонентов и заканчивая эксплуатацией облака.

Мы параллельно работаем над несколькими направлениями.

Для эффективной утилизации серверов облака (а благодаря высокой утилизации мы можем предоставить низкий ценник нашим клиентам) пользовательские нагрузки могут работать на одном сервере в разных контейнерах. Ресурсы между ними делятся благодаря фичам ядра Linux. Пользователям важно, чтобы их приложения работали с заданными KPI, поэтому одним из основных наших KPI мы считаем качество изоляции пользовательских нагрузок между собой. Для этого нам нужно уметь оценивать качество текущей изоляции и масштаб пользовательских проблем, придумывать способы решения и воплощать их в жизнь. Придется решать нетривиальные инженерные проблемы: процессоры не скейлятся линейно, разные поколения процессоров работают с разной скоростью и т. д., разные пользовательские нагрузки могут негативно влиять друг на друга. Изоляция включает в себя множество подзадач. Например, сейчас мы работаем над тем, чтобы внедрить на всем кластере сетевые лимиты, а это требует доработок на всех уровнях облака и аккуратного внедрения для пользователей.

Кроме того, улучшение качества изоляции ведет к уменьшению ценника, ведь тогда мы сможем использовать даже простаивающие в конкретный момент ресурсы, запрошенные пользователями («доесть» их). Например, ночью утилизация облака гораздо ниже чем днем. Мы активно работаем вместе с командой Map Reduce над тем, чтобы «доедание» стало реальностью, а пользователи в итоге смогли уменьшить свои заказы. А в будущем потребуется организовать процесс по повышению эффективности использования существующих ресурсов облака.

Новые платформы (или серверы) являются неотъемлемой часть нашей работы. Инфраструктурное облако растет, в него закупаются новые серверы с целью обеспечить растущие запросы потребителей. И далеко не всегда это просто новое поколение CPU, это могут быть GPU-кластеры, а в будущем и другие архитектуры или новые типы ускорителей! Все новое — всегда риск, который мы хотим уменьшить, ведь любые задержки ведут к срыву запусков чего-то нового в Yandex или к невозможности обеспечить естественный рост нагрузки. Нам нужен тот, кто управлял бы организацией человеко-машинного комплекса, призванного решить описанные проблемы.

Какие задачи вас ждут

ведение проектов от А до Я: планирование, согласование со смежными командами экспериментов и внедрений;
проработка архитектуры решений вместе с командой;
поиск, сбор и обработка аналитических данных, формализация требований;
популяризация базовой инфраструктуры;
желание разбираться и улучшать низкоуровневые компоненты (ядро ОС, контейнерный рантайм или планировщик кластера) одного из самых крупных облаков России.

Это только верхушка айсберга. Мы тесно взаимодействуем с командами эксплуатации дата-центров и сетевой инфраструктуры с одной стороны, с другими командами инфраструктурного облака и конечно же нашими пользователями — с другой, а значит скучать не придется!