Яндекс.Такси стремительно развивается, а наша аналитическая инфраструктура растет еще быстрее. Мы собираем терабайты кликов, миллиарды заказов, информацию о передвижении сотен тысяч машин, получаем данные от тысяч партнеров и готовим сотни витрин, дашбордов и отчетов. Нам нужны лучшие инженеры данных, которые в команде с лучшими аналитиками будут заниматься самыми тяжелыми расчетами, прорабатывать самые сложные алгоритмы и готовить инструментарий для сотен бизнес-пользователей.
====Вам предстоит:
- изучать, как каждый рубль, потраченный на рекламу, повлиял на привлечение каждого клиента в каждом маленьком городке;
- балансировать тарифы, системы скидок и субсидий так, чтобы клиентам были доступны недорогие поездки, а у водителей были достойные доходы;
- регулировать спрос и предложение так, чтобы пользователи всегда хотели ехать, а водители всегда хотели возить;
- бороться с попытками обмана и целенаправленными атаками со стороны недобросовестных водителей, хакеров-любителей и неэтичных конкурентов;
- выделять лихачей из потока GPS-координат и напоминать им о правилах дорожного движения.
====Мы ждем, что вы:
- уверенно программируете на «классическом» Python под Linux;
- владеете SQL и понимаете устройство современных реляционных баз данных;
- понимаете, зачем нужны непрерывная интеграция и непрерывная доставка (CI/CD), Git и ревью кода.
====Большим плюсом будет, если вам приходилось:
- участвовать в проектировании хранилищ данных и в процессе сбора требований;
- создавать сложные высоконагруженные ETL- и ELT-пайплайны (Hadoop, Informatica BDM, GCP Dataflow и пр.);
- разрабатывать процессы обработки сложных событий (CEP) в почти реальном времени (Kafka Streams, Spark, Flink и пр.);
- работать со специализированными аналитическими базами данных (Greenplum, Vertica, ClickHouse, Teradata и пр.);
- работать с инструментами стека Python для data science (Jupyter, Pandas, SciPy, Matplotlib, Bokeh и пр.).