Разработчик платформы управления данными в Такси

Наша платформа доставляет данные из множества источников сотням потребителей и использует самые разные технологии: от MapReduce до Flink, от Spark до SQL в аналитических базах данных. Мы стремимся писать совершенный код, проектировать и оптимизировать самые сложные расчёты, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.

Наша команда постоянно рассказывает о своих решениях:

на SmartData 2020 — о том, как мы разрабатываем DMP для Такси, Еды и Лавки;
на DataFest 2020 — о DSL для ETL в DMP;
на HighLoad++ Весна 2021 — о том, как подключить к Apache Spark проприетарный источник данных.

Мы ищем разработчиков, которые будут развивать разные компоненты нашей платформы:

  • поставку данных и их трансформацию из разных источников в аналитические хранилища;
  • наш фреймворк и сервисы, которые нужны для его работы;
  • инструменты для работы с данными (документацию, Data Quality, Data Lineage и другие).

Какие задачи вас ждут

  • писать хороший, легко поддерживаемый и производительный код на Python или Java;
  • строить распределённую инфраструктуру для получения, обработки и контроля качества данных;
  • разрабатывать собственный DSL для описания трансформаций данных в стриминге и батч-обработке;
  • проектировать интерфейс системы, которой будут пользоваться сотни инженеров данных;
  • оптимизировать потребление ресурсов в процессах обработки данных;
  • автоматизировать рутину;
  • заниматься автодокументацией, мониторингами, логами, метриками, админками.

Мы ждём, что вы

  • уверенно программируете на Python или Java;
  • готовы осваивать новые технологии и фреймворки;
  • умеете и любите писать чистый код, покрывать его тестами и проводить рефакторинг;
  • понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и Code Review.

Будет плюсом, если вы

  • работали с инструментами обработки больших данных: экосистемой Hadoop, Spark, ClickHouse, Greenplum и другими аналитическими MPP-базами данных;
  • разрабатывали и проектировали распределённые системы (наша инфраструктура должна базироваться в нескольких дата-центрах);
  • проектировали хранилища данных или поставку данных в них;
  • проектировали и разрабатывали процессы обработки сложных событий (CEP) в почти реальном времени на Flink, Spark Streaming, Kafka Streams;
  • работали со стриминговыми платформами, например с AWS Kinesis, Apache Kafka, Azure Event Hubs, понимаете, как они устроены и зачем нужны.

Что мы предлагаем

  • сильная команда, с которой можно расти;
  • сложные задачи для сервисов с миллионами пользователей;
  • возможность влиять на процесс и результат;
  • зарплата на уровне рынка и выше;
  • премии каждые полгода для всех, кто успешно прошёл ревью;
  • расширенная программа ДМС: оплата 80% стоимости ДМС для супругов и детей;
  • гибкий график работы.
Спасибо за отклик!

Мы свяжемся с вами в течение недели.

Fri Feb 09 2024 12:47:58 GMT+0300 (Moscow Standard Time)