Клуб о поиске Яндекса

Переформулировки запросов

bobrosvin
11 марта 2011, 13:29

Добрый день!

Очень здорово, что Яндекс умеет переформулировать (переколдовывать) запросы, повышая полноту выдачи за счет аббревиатур и их расшифровок, транслитерации и синонимов. Несколько месяцев назад база переколдовок была расширена, однако, на мой взгляд, возможности этой технологии далеко не исчерпаны.

Живой сегодняшний пример.

Мне нужно было найти список 4 ключевых страниц, которые являются главным фокусом для Яндекса. Пост был больше года назад, в памяти осталось только, что я написал. Запрос 4 главные страницы яндекс не обнаруживает искомый документ, однако четыре главные страницы яндекс радует нас нужной ссылкой.

Собственно, вопрос - почему бы не переколдовывать числа в строковое представление? Для малых чисел - as is, для больших - точно или округленно. Имхо, было бы здорово ;)

6 комментариев
Подписаться на комментарии к посту
+1 Интересно, почему это не реализовано. На вид - очень простая вещь.
Александр
11 марта 2011, 14:24
(+1)
Привет,
у нас есть расширение, о котором Вы пишете. Пример 1: [3 мушкетера], пример 2: [10 негритят]
В данном случае так сработало ранжирование, сочтя страницу нерелевантной и не показав в выдаче.

Тири, спасибо за ответ. Но он породил новые вопросы ;)

Для 10, 9, 8, 7, 6, и 5 негритят переколдовка есть. Но для 4 негритят - почему-то нет. Аналогично и с мушкетерами, не каждый состав приводит к переколдовке. Корреляции между фактом переколдовки и частотностью запроса либо совместной встречаемостью слов я не обнаружил.

Кстати, для многих популярных запросов переколдовок нет, хотя они явно полезны. Например, выдача по запросам 12 и двенадцать не переколдовывается и здорово различается. Хотя запросы совершенно синонимичны.

Собственно, вопросы:

Какая логика в применении алгоритма переколдовок?

Нужна ли эта логика вообще? Почему бы не переколдовывать все (пусть с меньшим весом, например)?

Спасибо,

Михаил.

Везет, а меня что 'двадцать последних запросов яндекса', что '20 последних запросов яндекса' одинаково не радуют.
Приходится страницы Яндекса искать через Гугл.

По первой же ссылке видно, что переколдовка работает правильно.  А ранжироваться одинаково страницы со словами исходного запроса и с расширениями не обязаны.