Разработчик аналитической инфраструктуры в Такси

МоскваPython, Linux, C++, Go, Java, ScalaТаксиСпециалист
Яндекс.Такси и Яндекс.Еда стремительно развиваются, а наша аналитическая инфраструктура растет еще быстрее. Мы собираем терабайты кликов, миллиарды заказов, информацию о передвижении сотен тысяч машин и курьеров, получаем данные от тысяч партнеров и готовим сотни витрин, дашбордов и отчетов. Нам нужны лучшие разработчики, которые в команде с лучшими инженерами данных и аналитиками будут заниматься инфраструктурой для сбора и обработки данных, проектировать и оптимизировать самые тяжелые расчеты, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.

Вы нам подходите, если вы:

  • уверенно программируете на «классическом» Python под Linux и знаете другие языки программирования (C++, Go, Java, Scala и т. п.) и технологии или не побоитесь их освоить;
  • умеете и любите писать тесты на свой код;
  • понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и ревью кода;
  • любите и умеете делать рефакторинг, но понимаете, когда пора остановиться.

Кроме того, приветствуется, если вы:

  • участвовали в разработке и проектировании распределенных систем (наша инфраструктура должна работать не только на нескольких машинах внутри одного дата-центра, но и в нескольких разных дата-центрах);
  • владеете SQL и понимаете устройство современных реляционных баз данных;
  • участвовали в проектировании хранилищ данных или поставки данных в них;
  • имеете опыт создания сложных высоконагруженных ETL- и ELT-процессов, в том числе с использованием экосистемы Hadoop;
  • проектировали и разрабатывали процессы обработки сложных событий (CEP) в почти реальном времени (Kafka Streams, Spark, Flink и пр.);
  • работали со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata и пр.).

Вам предстоит:

  • строить распределенную инфраструктуру для хранения, обработки и контроля качества данных;
  • проектировать и разрабатывать «реактивный» граф расчетов, над которыми работают десятки инженеров данных и аналитиков;
  • автоматизировать всю рутинную деятельность, которая мешает инженерам данных и аналитикам;
  • разрабатывать специализированные сервисы для импорта и экспорта данных из разных источников в разные приемники, например из YT (внутренняя MapReduce-платформа) в Greenplum и наоборот;
  • работать с документацией, мониторингами, логами, метриками и т. п.