В 2009 году Яндекс провел очередной конкурс «Интернет-математика 2009». Задачей, предложенной к решению на конкурсе, было получить функцию ранжирования документов на основе обучающего множества (запросы и соответствующие документы с выставленными оценками релевантности).
Тогда мы даже не догадывались, что этот конкурс вызовет широкий отклик и получит мировую известность, и что компания Yahoo! создаст свой собственный конкурс — по образу и подобию нашего. Там проводятся два соревнования (дорожки), для которых Yahoo! предоставила два набора данных (большой и маленький), которые в реальной системе используются для обучения ранжирования.
Условия таких конкурсов конечно отличаются от реальных условий — например, потому что полученная функция ранжирования может оказаться неприемлемо сложной и вычисляться слишком долго для того, чтобы ее могла использовать поисковая система, которой ищут живые люди. Тем не менее, этот конкурс очень интересен, ведь в нем используются самые передовые технологии и участвуют самые сильные команды исследователей. Он интересен еще и тем, что дает возможность сравнить разные технологии, разные алгоритмы ранжирования, в том числе и совершенно новые, и закрытые. Ну и конечно, как и во всяком конкурсе, в нем есть немалый элемент везения.
Нам приятно видеть среди победителей конкурса Yahoo! сотрудников Яндекса. В обеих дорожках их немало. А Игорь Куралёнок и Андрей Гулин даже заняли первое место во второй дорожке!
Нам кажется, что это служит подтверждением того, что, во-первых, у нас работают великолепные специалисты в области поиска, во-вторых, что инструменты и алгоритмы, которыми они пользуются (Игорь и Андрей, например, использовали исследовательский вариант «Матрикснета», — самого высокого мирового уровня).
Игорь, Андрей, поздравляем вас!
Илья Сегалович, болельщик
Для интересующихся выкладываем презентации наших специалистов на семинаре, посвященном этой задаче на ICML — основной конференции по машинному обучению, которая только что закончилась в городе Хайфа, Израиль:
BagBoo: Bagging the Gradient Boosting (Dmitry Pavlov and Cliff Brunk aka JOKER & team_404)
YetiRank: Everybody Lies (Igor Kuralenok and Andrey Gulin aka MN-U)
Application of Additive Groves to the Learning To Rank Challenge (Daria Sorokina aka AG)