YT — основная платформа для аналитики и построения batch-процессов в Яндексе, которая включает несколько видов хранилищ, планировщик ресурсов и встроенный MapReduce-движок. Apache Spark — популярный открытый фреймворк для распределённой обработки больших данных.
Мы интегрируем Spark и YT с 2020 года и уже рассказывали об этом на конференции Highload++ 2021. Сейчас Spark-over-YT используют десятки инженеров данных Яндекса. Мы ищем сильного разработчика, которому интересно заниматься распределёнными системами и инфраструктурой обработки больших данных.
Наш стек:
Примеры задач:
Мы свяжемся с вами в течение недели.