Блог Яндекса для вебмастеров

Расширение запросов

17 июня 2008, 13:47

Продолжаем магаданский цикл рассказов.

Одну и ту же поисковую потребность пользователь может быть выразить разными запросами. Например, запрос «гамбургские гостиницы» кажется эквивалентным по смыслу запросу «гостиницы Гамбурга». Сходство потребностей, выраженных двумя разными запросами, можно попробовать оценить по близости слов в этих запросах. Близость слов может выражаться разными языковыми способами, и для некоторых из них можно придумать алгоритмы построения всех пар слов этого типа, опираясь на представительные корпусы текстов.

Яндекс много лет ищет с учетом морфологии, что выражается в учете отношений двух типов:
а) словоизменительное отношение («маме», «мамой», «маму», «мамы» – формы слова «мама»);
б) видовое отношение (совершенный и несовершенный виды глагола), например “сделать” – “делать”.

Теперь поиск Яндекса (версия «Магадан») еще учитывает следующие отношения:
а) некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);
б) транслитерация («mazda» -> «мазда»);
в) аббревиатуры (МГУ -> Московский государственный университет).

Списки пар слов, входящих в отношения, собирались автоматически по текстам всего Интернета зоны .ru и по логам поисковых запросов. Для примера рассмотрим алгоритм составления словаря аббревиатур.

1. Сначала из архива веба выделяются цепочки вида <последовательность слов, слово в верхнем регистре в скобках>, например:

  • Парламентская ассамблея Совета Европы (ПАСЕ)
  • дорожно-транспортные происшествия (ДТП)
  • налог на добавленную стоимость (НДС)
  • Мобильные ТелеСистемы (МТС)

2. Оставляем пару, если из первых букв последовательности получается слово в скобках. Расшифровки нормализуются и отождествляются без учета стоп-слов, для каждой пары <расшифровка, аббревиатура> получаем количество хостов, с которых ее извлекли.

3. Если средняя частота расшифровки аббревиатуры близка к частоте стоп-слов, а сама расшифровка встречалась меньше, чем на N хостах, удаляем аббревиатуру, например, были удалены:

  • что было сделано хорошо (ЧБСХ) -- 18 хостов
  • как можно раньше (кмр) -- 49 хостов
  • правая рука (пр) -- 46 хостов
  • что я за это получу (чязэп) -- 16 хостов
  • центр информационных систем и технологий в управлении (цисту) -- 2 хоста

4. Если две расшифровки одной и той же аббревиатуры отличаются по Левенштейну не больше, чем минимальная длина расшифровок, умноженная на k, при этом различия распределены равномерно, тогда считаем это одной и той же расшифровкой, например:

  • электронно-цифровая подпись <=> электронная цифровая подпись
  • фильтр низких частот <=> фильтр нижних частот
  • внутренний валовый продукт <=> внутренний валовой продукт
  • железная дорога молдавии <=> железная дорога молдовы

5. Если отношение двух самых частотных расшифровок одной аббревиатуры меньше некоторого порога, тогда такая аббревиатура считается омонимичной и в этой версии удаляется. Например, удаляются:

  • фестиваль электронной музыки и экстремального спорта (фэмэс) --  51
  • форум электронной музыки и экстремального спорта (фэмэс) -- 15

и

  • единая система почтовых переводов (еспп) -- 273
  • единая система приема платежей (еспп) -- 266

и

  • управление буровых работ (убр) -- 154
  • учреждение банка россии (убр) -- 26

и

  • московский государственный строительный университет (мгсу) -- 2181
  • московский государственный социальный университет (мгсу) -- 718


6. Удаляем аббревиатуры, если ее частота ниже порога встречаемости, совпадающие с частотными словарными словами, например:

  • технические условия (ту)
  • пензенское общество любителей естествознания (поле)
  • институт гармонического развития и адаптации (игра)

Использование новых расширений слов запроса суммировано в следующей таблице:

  • Переход из одной части речи в другую -- 17182 пар слов, 6% запросов
  • Транслитерация -- 25455 пар слов, 8% запросов
  • Аббревиатуры -- 19360 пар слов, 1,5% запросов


Алексей Сокирко, текстоаналитик

19 комментариев
Подписаться на комментарии к посту
Капец, я всю голову сломал... от определений в топике. Думаю это нововведение поможет неопытным юзерам интернета. А тем, кто привык искать "реферат & педагогика" теперь запутаются :)
>>А тем, кто привык искать "реферат & педагогика" теперь запутаются :) Это почему еще? Как раз прямой ввод остается. Изменения будут при вводе "реферат педагогика".
Здорово. Не очень понятно, правда, с омонимичными аббревиатурами: удаляется только менее частотный омоним или омонимичная пара целиком?
пока удаляем пару целиком, потом будет разрешать омонимию по контексту.
Ничего так исследование, интересно было почитать... Сразу ввел в поисковике НДС и "налог на добавленную стоимость" Во первом случае выдача коммерческая, во втором не очень - даже WIKIpedia есть. Рулит, однако, текст и ссылки. Видимо до "семантического поиска" (в частности, отождествления аббревиатур и их расшифровок) еще очень далеко. А может и не надо это... Или я ничего не понял :-)
Ммм... занятненько. А подскажите, пожалуйста, незнающему: в каких научных дисциплинах надо поупражняться, чтобы выводить такие алгоритмы?
Спасибо за пояснения. Всегда здорово, когда все идет к лучшему и особенно хорошо тогда, когда об этом говорят в слух.
Яндекс “путает педали”… На данный момент, выдача не всегда в норме! Рассмотрим строительную тематику – запрос «земляные работы»: 1. http://yandex.ru/yandsearch?text=%C7%E5%EC%EB%FF%ED%FB%E5+%F0%E0%E1%EE%F2%FB ->Кодировка переменной $text в windows-1251 В первом варианте запрос «Земляные работы» (первая буква - заглавная) Выдача РЕЛЕВАНТНАЯ: www.monolita.ru www.asfaltstroy.com unim.biz www.kotlovan.su www.zemelya.ru www.mehkolona.ru … http://yandex.ru/yandsearch?text=%D0%B7%D0%B5%D0%BC%D0%BB%D1%8F%D0%BD%D1%8B%D0%B5+%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B ->Кодировка переменной $text в utf8 Во втором варианте запрос «земляные работы» (первая буква – в нижнем регистре) Выдача НЕ РЕЛЕВАНТНАЯ НИ КАПЛИ: www.doski.ru/book867.htm www.stroi.biz/showServices.do?category=2030106 www.cotlovan.ru www.magelan.su/tenders/tenderlist.php?sectionid=238 re-decor.ru/partners/78/ org77.ru/page30 org52.ru/rubric.php?R_NAME=ЗЕМЛЯНЫЕ РАБОТЫ www.steps.ru/product/article.php?id=284 www.gromko.ru/bboard/bmusic/ • … Вывод –> что-то вы напутали с кодировочками… В итоге в выдаче бардачёк
А где находится этот таинственный раздел «Файлы Sitemap» сервиса Яндекс.Вебмастер? И сам сервис? Весь Яндекс перерыл - не нашел. Ладно, предположим, что /addurl.html и вводит в этот сервис, но где там этот раздел? Плохие у вас специалисты по юзабилити.
http://webmaster.yandex.ru/wmconsole/ Можно в роботс.txt User-agent: Yandex Disallow: /dir/ Disallow: /file.html Host: яндекс.ру Sitemap: http://яндекс.ру/sitemap.xml
Ну не плохо, только вот интересно проиндексирует он мой блог или нет http://svadbi-tut.ru/ , весь в сомнениях теперь((
Вы бы лучше тИЦ обновили а то с 20.05.2008 никаких слухов!
а 30 июня АП до Вас не дошел?
Ещё как дошёл! Спасибо! но я писал за 5 дней до 30го числа! :)
интересно-интересно))
То ли программистам мало платят, то ли сервера брандспойтом моют. В выдаче веселуха. Сайты то попадают в индекс, то вылетают. Существенного изменения выдачи не было с 2008-06-26 Была только «колбасня»: 2008-06-28 – вкручиваются новые условия ранжирования 2008-06-30 – выкручиваются 2008-07-02 –  снова вкручиваются… Нет слов, одни эмоции… зато весело…
улучшений не было замечено
Мне было всегда интересно почему например слова Омск и омск разные (млин ну и где ваш геотаргетинг! хоть города бы в базу забили правильно Их не так много ! ) ! выдача отличается так и тут с маздой пишут что типа одно и тоже ! а на самом деле выдача то разная !
Очень бы хотелось что бы при запросе !купить *название товара*! в начале показывались сайты домашнего региона. Как то понять почему предложение из Томска находится на первом месте ещё можно, но вот видеть там украинский или вовсе иностранный сайт – очень странно. Я конечно не говорю что нужно их совсем исключать из поиска, потому что в некоторых уникальных случаях нужный товар действительно можно купить только в другом городе а иногда и стране, но менять механизм ранжирования таких запросов очевидно нужно.