Сотрудники Яндекса победили в конкурсе на лучший поиск

28 июня 2010, 18:02

В 2009 году Яндекс провел очередной конкурс «Интернет-математика 2009». Задачей, предложенной к решению на конкурсе, было получить функцию ранжирования документов на основе обучающего множества (запросы и соответствующие документы с выставленными оценками релевантности).

Тогда мы даже не догадывались, что этот конкурс вызовет широкий отклик и получит мировую известность, и что компания Yahoo! создаст свой собственный конкурс — по образу и подобию нашего. Там проводятся два соревнования (дорожки), для которых Yahoo! предоставила два набора данных (большой и маленький), которые в реальной системе используются для обучения ранжирования.

Условия таких конкурсов конечно отличаются от реальных условий — например, потому что полученная функция ранжирования может оказаться неприемлемо сложной и вычисляться слишком долго для того, чтобы ее могла использовать поисковая система, которой ищут живые люди. Тем не менее, этот конкурс очень интересен, ведь в нем используются самые передовые технологии и участвуют самые сильные команды исследователей. Он интересен еще и тем, что дает возможность сравнить разные технологии, разные алгоритмы ранжирования, в том числе и совершенно новые, и закрытые. Ну и конечно, как и во всяком конкурсе, в нем есть немалый элемент везения.

Нам приятно видеть среди победителей конкурса Yahoo! сотрудников Яндекса. В обеих дорожках их немало. А Игорь Куралёнок и Андрей Гулин даже заняли первое место во второй дорожке!

Нам кажется, что это служит подтверждением того, что, во-первых, у нас работают великолепные специалисты в области поиска, во-вторых, что инструменты и алгоритмы, которыми они пользуются (Игорь и Андрей, например, использовали исследовательский вариант «Матрикснета», — самого высокого мирового уровня).

Игорь, Андрей, поздравляем вас!

Илья Сегалович, болельщик

Для интересующихся выкладываем презентации наших специалистов на семинаре, посвященном этой задаче на ICML — основной конференции по машинному обучению, которая только что закончилась в городе Хайфа, Израиль:

BagBoo: Bagging the Gradient Boosting (Dmitry Pavlov and Cliff Brunk aka JOKER & team_404)
YetiRank: Everybody Lies (Igor Kuralenok and Andrey Gulin aka MN-U)
Application of Additive Groves to the Learning To Rank Challenge (Daria Sorokina aka AG)

6 комментариев
Подписаться на комментарии к посту
с Победой! V
nobody cares
Мои поздравления бойцам из Яндекса! Всегда приятно, когда наши на пьедестале, пусть даже и в таком экзотическом виде спорта. Странно, что участников топ-20 не расшифровали - кто, да из какой страны. Мне почему-то кажется, там, в топе-20, наших полно, особенно людей из Яндекса. Сам выступил (там у меня псевдоним "ya"), для любителя, считаю, неплохо – 9-ое место в первой дорожке, 6-ое во второй. Ну так ведь и кластеров у нас, любителей, нету, а на домашнем ПК особо не разбежишься:)
Что интересно, простые подходы все еще работают – во 2-ой дорожке просто взял в set1 значения параметров, неопределенных в set2, кластеризовал их по значению отклика, и полученные средние, соответствующие отклику set2, подставил вместо неопределенных значений в set2. Ну а дальше объединение set1 и set2, удаление дублей и стохастический бустинг (Фридман) всего этого добра.
А MatrixNet в первой дороге на какое место зашел, или его помимо MN-U никто там не использовал?
Про людей из Яндекса в топе:

Winners Track 1:

Chris Burges, Microsoft, USA (team Ca3Si2O7)
Eric Gottschalk, (team catonakeyboardinspace)
Dmitry Pavlov, Yandex, USA (team Joker)
Daria Sorokina, Yandex, USA (team AG)

Winners Track 2:

Igor Kuralenok, Yandex, Russia (team MN-U)
Ping Li, Cornell, USA (team arizona)
Dmitry Pavlov, Yandex, USA (team Joker)
Pierre Geurts, Univ Liege, Belgium (team ULG-PG)
Да, официальных победителей из топ-4 организаторы назвали, а вот остальных людей из топ-20, который сейчас доступен по ссылке http://learningtorankchallenge.yahoo.com/leaderboard.php, не расшифровали. Часть из них, по первой дороге, кроме победителей, теперь известна: MN-U – Гулин, alexeigor – тоже вроде из Яндекса, т.е. в топ-20 уже, по меньшей мере, пятеро наших соотечественников.
Добавил презентацию Дарьи Сорокиной (команда AG)