Ведущий инженер данных в Такси

МоскваPython, LinuxТаксиРуководитель
Отдел аналитики Яндекс.Такси собирает направление инженерии данных. Члены команды будут систематизировать терабайты собранных со всей компании данных и реализовывать их алгоритмическую обработку. Сейчас мы ищем ведущего разработчика, готового возглавить одну из групп инженерии данных.

Вы нам подходите, если вы:

  • имеете опыт продакшн-разработки на «классическом» Python под Linux;
  • имеете опыт обработки больших объемов данных;
  • знаете архитектуры DWH и Data Lake, методологии сбора данных и построения производных датасетов;
  • любите непрерывную интеграцию и непрерывную доставку (CI/CD).

Кроме того, приветствуются:

  • опыт руководства командой и работы по методологии Agile;
  • опыт проектирования доменных моделей и организации сбора требований;
  • наличие реализованных проектов по обработке сложных событий (CEP) в почти реальном времени (на Kafka Streams, Spark, Flink и пр.);
  • опыт работы со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata и пр.);
  • знание инструментов data science для Python (Jupyter, Pandas, SciPy, Matplotlib, Bokeh и пр.).

Вам предстоит:

  • собирать терабайты кликов, миллиарды заказов и движения сотен тысяч машин в большое единое хранилище;
  • выжимать из сырых данных ценную информацию и аккуратно раскладывать ее в удобные для анализа объекты;
  • готовить данные для красивых отчетов, например, о том, как каждый рубль, потраченный на рекламу, повлиял на привлечение каждого клиента в каждом маленьком городке;
  • реализовывать сложные алгоритмы, например, балансировать тарифы, скидки и субсидии так, чтобы клиентам были доступны недорогие поездки, а у водителей были достойные доходы.