Python-разработчик в Группу исследований рекламных технологий

МоскваPython, Linux, C, C++Специалист
Человек однажды изобрел интернет, и контекстная реклама стала частью нашей реальности. Триллионы рекламных показов приносят поисковым системам и рекламодателям хорошую прибыль, а еще с ними связано множество интересных задач, как инженерных, так и наукоемких. Онлайн-аукционы, контекстное и поведенческое таргетирование, подстройка рекламы по изображениям и подбор релевантного трафика — все это лишь малая часть большой рекламной платформы Яндекса.
Наша команда занимается задачами автоматической генерации рекламных объявлений (баннеров). Мы создаем сервисы, которые позволяют нашим клиентам забыть о ручном отборе рекламируемых страниц, придумывании кликабельных текстов и ключевых фраз, привлекающих релевантный трафик. Пользователь просто указывает свой сайт, оплачивает рекламную кампанию и получает на выходе готовые объявления. За внешней простотой сервиса скрыта вся мощь технологий Big Data и Data Mining, при помощи которых мы собираем данные, подбираем ключевые фразы и генерируем тексты объявлений. Мы опираемся на огромные массивы данных и статистики, что позволяет делать такую рекламу гораздо более эффективной, чем обычные объявления, созданные вручную.
А еще мы решаем задачу классификации текстов — поисковых запросов, веб-страниц и рекламных баннеров. Категории широко используются в Яндексе для решения самых разных задач, от фильтрации нежелательного контента до таргетирования рекламы на определенные сегменты аудитории, они играют важную роль для множества ML-прогнозаторов и применяются при построении аналитических отчетов. У нас десятки тысяч категорий, которые можно комбинировать, и довольно высокие требования к точности и полноте, что делает эту задачу сложной и интересной. Здесь нас ждет большая исследовательская часть: мы будем пробовать разные подходы к многоклассовой классификации, изобретать новые факторы, метрики качества и алгоритмы подбора категорий.
В своей работе мы используем самые современные технологии обработки текстов и анализа данных: параллельные вычисления MapReduce, кластеризацию, машинное обучение и нейронные сети. Код мы пишем в основном на Python, реже на на C++.
Все наши сервисы работают в продакшн-кластерах под высокой нагрузкой, поэтому мы уделяем особое внимание нашей инфраструктуре, для которой мы также стараемся применять последние технологии в области хранения, обработки и передачи данных.
У нас много задач самого разного характера, и нам нужны хорошие разработчики. Если вы любите и умеете работать с данными и вас интересуют машинное обучение, технологии Big Data, обработка текстов на естественном языке; если вы хотите разрабатывать современные высоконагруженные бекенд-сервисы; если вы расположены к инфраструктурной разработке и вам нравятся облачные платформы; если вы просто всю жизнь мечтали заниматься интернет-рекламой :) — в любом случае приходите к нам.

Задачи, которые нам предстоит решать в ближайшее время:

  • переход на модель параллельных вычислений MapReduce;
  • разработка алгоритмов классификации рекламных текстов, поисковых запросов и веб-страниц;
  • обучение классификатора рекламных объявлений;
  • быстрый поиск k ближайших соседей баннера (knn-поиск);
  • разработка новых источников данных для автогенерации баннеров и проведение A/B-экспериментов с ними;
  • автоматический поиск коллизий классификации рекламных объявлений;
  • построение надежной инфраструктуры на базе облачных платформ Яндекса.

Что мы ждем от вас:

  • хорошие практические навыки владения Python или другим скриптовым языком;
  • базовые знания в области алгоритмов и структур данных;
  • готовность работать в команде.

Приветствуются:

  • базовый опыт работы с Linux;
  • знание С/С++;
  • знание MapReduce;
  • знание машинного обучения;
  • навыки devops.