Разработчик в команду Справочника

МоскваC++, PythonСправочник, ПоискСпециалист
Мы ищем разработчика в команду Справочника. Справочник организаций — это контент-система для геопоиска. Ежедневно нам поступают сотни тысяч сигналов об организациях на картах: люди оставляют обратную связь, операторы колл-центра собирают информацию о наиболее важных компаниях, нам поступает поток информации из интернета.

Весь этот объем информации нужно уметь обрабатывать:

  • объединять сигналы об одной и той же организации, чтобы на картах не появлялись нежелательные дубликаты;
  • применять только те обновления, которые произошли в реальности;
  • эффективно организовывать процесс актуализации, не звоня слишком часто в компании;
и многое другое.
Деятельность осложняется тем, что часто данные от разных поставщиков приходят в очень разном виде и с разным качеством. Кто-то может вообще не поставлять специализированных атрибутов, а у кого-то все организации будут называться «магазин» или «кафе». Поэтому перед нами стоит задача разработки наукоемких алгоритмов, которые смогут эффективно использовать такую разнородную по качеству информацию.

Мы ищем в нашу команду человека, который поможет нам в решении задач:

  • майнинг (сбор) данных об организации из веба (нам доступна вся контент-система большого поиска);
  • создание метрик качества работы Справочника организаций;
  • разработка алгоритмов унификации разнородных данных (адреса, телефоны и т.п.);
  • поиск адресных точек в базе в распределенной системе (например, MapReduce);
  • оптимизация работы колл-центра (нам очень хочется соблюдать высокий SLA, чтобы операторы всегда могли бесперебойно осуществлять свою работу).

Требования:

  • уверенное знание C++ и Python;
  • знание классических алгоритмов и структур данных;
  • знание принципов функционирования распределенных систем;
  • опыт в программировании на Java (большая часть кодовой базы Справочника написана именно на этом языке.)