Клуб о поиске Яндекса

Эффективность машинного обучения

bobrosvin
17 марта 2011, 00:14

Добрый день.

Известно, что Яндекс использует разметку асессорами для машинного обучения алгоритма ранжирования. Очевидно, чем больше объем оцененных пар запрос-документ, тем выше качество обучения. Выборка сравнительно невелика, около 100 тыс. запросов. Какие запросы попадают в выборку? Логично предположить, что наиболее трафиковые.

С популярными запросами все более-менее понятно. А вот как сформировать выборку и обеспечить качественное обучение и ранжирование по уникальным запросам, которые формируют примерно половину всего поискового трафика?

И вторая мысль. Асессоры могут разметить только уже существующую выдачу, причем на вполне определенную глубину (ТОП20-ТОП30). Таким образом, если качественный документ не попал в этот диапазон - он принципиально не может быть учтен. Гипотеза: такой подход к обучению позволяет эффективно достигать небольших улучшений, но не дает возможности "смотреть в корень".

Возможно, эффективнее окажется модель, комбинирующая "широкий" и "глубокий" подход. "Широкая" оценка позволяет оценивать множество запросов с небольшой глубиной, а "глубокая" - немного запросов на большую глубину. Под большой глубиной можно понимать как банально более глубокий ТОП, так и ручной поиск хороших ответов.

С уважением,

Михаил Сливинский, эксперт-аналитик.

10 комментариев
Подписаться на комментарии к посту

Запросы в выборку попадают равномерно-случайным образом, поэтому частотные запросы там зачастую есть, но и уникальных, конечно, много.

Правильно разобраться в уникальном запросе гораздо труднее, чем в частотном, это правда (т.к. никакой статистики по нему нет). Никакой магией в этом деле я, к сожалению, не владею. Вероятно, качество наших оценок по уникальным запросам в среднем ниже, чем по частотным, приходится с этим жить.

Ручной поиск хороших ответов для того, чтобы впоследствии передать их в настройку, у нас довольно активно применяется. Там есть свои трудности, но в целом идея жизненная.

Lyudmila Kudryavtseva
17 марта 2011, 00:19
а каких больше - уникальных или частотных?

Скажем в первые 50 сайтов попали только некачественные, скажем переспамленные сайты

Ассесоры выберут лучшие из этого хлама, таким образом получится что плохие по сути сайты (но лучшие среди себе подобных плохих) - признаны качественными, т.е. теми на которые стоит ориентироваться

Мне кажется таких ошибок вообщем то по сути много))

Есть ещё вопрос:

Скажем ассесор выбрал сайт реально хорошим)), и он как бы эталон

Но спустя некоторое время на сайте сменили текст и повесили какой-то полный хлам

По сути его оценка должна анулироваться, ведь большинство информации на нем изменилось? Почему же так не происходит ( или всё же вроде как происходит? )?

Некоторые сайты как будто "прибиты" к Топ-10, даже когда у них отключают хостинг на несколько месяцев - они упорно висят на прежних местах

Оценки наши асессоры ставят не по относительной, а по абсолютной шкале. Конечно, на практике человеку свойственно ошибаться и всё такое, но все же, если в топе нет ни одного сайта, отвечающего на запрос, скорее всего, это отражается и в оценках.

Ручной поиск предполагает перезадачи запроса, в том числе и в другие поисковые системы, а не только хождение вглубь по заданному запросу.

У нас есть некоторые автоматические системы мониторинга того, что документ надо переоценить. Резкое изменение текста документа, безусловно, является одним из признаков, но есть и несколько других. Эти эвристики не всеобъемлющие, безусловно, но ловят довольно много такого, что нужно переоценить.

Также стоит отметить, что изменение оценки не влияет на выдачу немедленно. Во-первых, изменения алгоритма ранжирования происходят не так часто (а это единственное место, на которое оценка имеет шанс повлиять), а во вторых, положительная оценка как таковая всё равно не гарантирует присутствия сайта в выдаче по данном запросу.

Хорошо, отличный ответ

Но есть ещё пару вопросов))

Мне кажется что алгоритм никогда не будет нормально оценивать текст

Т.к. у программы нет мозга))

Один текст может быть очень кратким и рекламным, возможно даже смешно написан

И другой обьёмный как словарь, включающий в себя всю полноту информации по данному вопросу

Каждый из них хорош по своему

Давая оценить один контент как хороший - приведёт к однообразию выдачи, и позже приходится разбавлять выдачу искуственно, делать её более разнообразно..

Причем после работы ассесора там чисто механическая выборка будет, т.е. технические параметры текста, т.к. по сути программа никогда не поймет смысл текста

Это примерно как дать пользователю 2 произведения скажем стих Ахматовой и стих Блока

Какой же из них будет лучше))

Машиная выборка на основе ассесоров по сути не ошибка?

Пользователю на разных сайтах может нравится всё что угодно, на одном сайте красивое оформление, на другом сам текст, а на третьем тупо цены дешевле и он тоже имеет право на место в первой страничке

Глупо делать сайт эталонным и по нему всех равнять? :)

Придется ещё более интелектуально разбавлять выдачу?? ( В смысле не как в анонсе СПЕКТРа, по запросам не имеющим конкретной цели, а вообще в целом, и лучше чем это уже делается сейчас )

Есть какие-нибудь теоретические принципы правильного ранжирования, к которым стремится компания ( алгоритмически изложить сможете? )? Помимо улучшения кликабельности директа)) (Шучу..)

Мне кажется, тут нет проблемы, и вот по каким причинам.

Асессор может найти больше чем один документ по запросу. На один запрос могут смотреть несколько разных асессоров, а их результаты потом соберутся в один набор. Ну и машина при обучении не на каждый запрос в отдельности смотрит, а на все вместе. Все эти факторы в совокупности, полагаю, позволяют избежать проблемы с однообразной выдачей из-за единственного эталонного документа.

К тому же, что-то специально искать обычно надо по довольно сложным запросам, по которым хорошие результаты не вдруг находятся, типа [символика молочной продукции советских лет фото]. Там нет ничего страшного, если мы только один сайт найдём, потому что их не то чтобы выбор большой.

Ясно))

Спасибо за ответы

Lyudmila Kudryavtseva
18 марта 2011, 01:04
Борис, а зачем вы написали свой комментарий в качестве ответа на мой? вы же отвечаете на исходный пост, а не мне.
Как я понимаю, вы сделали это специально, чтобы Роман отвечал вам, а мои все вопросы проигнорировал. Так оно и получилось. Я крайне опечалена вашей злой стратегией, Борис.
На тему "прибиты" к топ-10 показательна выдача по запросу "свадьба". Что уже только не делали лидеры топа, но своё место заняли плотно.

Посему вопрос - среди автоматических систем мониторинга того, что документ надо переоценить, есть временной параметр? Вы, Роман, говорите, что оценка - абсолютная, а не относительная. Но со временем ведь растут и требования (к этой оценке). Грубо говоря, то, что раньше получало "пятерку", теперь может не дотягивать и до "тройки". И есть смысл "повысить требования".

Роман, спасибо за ответ!