Мы параллельно работаем над несколькими направлениями.
Для эффективной утилизации серверов облака (а благодаря высокой утилизации мы можем предоставить низкий ценник нашим клиентам) пользовательские нагрузки могут работать на одном сервере в разных контейнерах. Ресурсы между ними делятся благодаря фичам ядра Linux. Пользователям важно, чтобы их приложения работали с заданными KPI, поэтому одним из основных наших KPI мы считаем качество изоляции пользовательских нагрузок между собой. Для этого нам нужно уметь оценивать качество текущей изоляции и масштаб пользовательских проблем, придумывать способы решения и воплощать их в жизнь. Придется решать нетривиальные инженерные проблемы: процессоры не скейлятся линейно, разные поколения процессоров работают с разной скоростью и т. д., разные пользовательские нагрузки могут негативно влиять друг на друга. Изоляция включает в себя множество подзадач. Например, сейчас мы работаем над тем, чтобы внедрить на всем кластере сетевые лимиты, а это требует доработок на всех уровнях облака и аккуратного внедрения для пользователей.
Кроме того, улучшение качества изоляции ведет к уменьшению ценника, ведь тогда мы сможем использовать даже простаивающие в конкретный момент ресурсы, запрошенные пользователями («доесть» их). Например, ночью утилизация облака гораздо ниже чем днем. Мы активно работаем вместе с командой Map Reduce над тем, чтобы «доедание» стало реальностью, а пользователи в итоге смогли уменьшить свои заказы. А в будущем потребуется организовать процесс по повышению эффективности использования существующих ресурсов облака.
Новые платформы (или серверы) являются неотъемлемой часть нашей работы. Инфраструктурное облако растет, в него закупаются новые серверы с целью обеспечить растущие запросы потребителей. И далеко не всегда это просто новое поколение CPU, это могут быть GPU-кластеры, а в будущем и другие архитектуры или новые типы ускорителей! Все новое — всегда риск, который мы хотим уменьшить, ведь любые задержки ведут к срыву запусков чего-то нового в Yandex или к невозможности обеспечить естественный рост нагрузки. Нам нужен тот, кто управлял бы организацией человеко-машинного комплекса, призванного решить описанные проблемы.
Это только верхушка айсберга. Мы тесно взаимодействуем с командами эксплуатации дата-центров и сетевой инфраструктуры с одной стороны, с другими командами инфраструктурного облака и конечно же нашими пользователями — с другой, а значит скучать не придется!
Мы свяжемся с вами в течение недели.