Яндекс.Словари: всё по полочкам

9 июня 2011, 17:16

Всем известно, что одно и то же слово нередко означает совершенно разные предметы. Например, «бокс» — не только вид спорта, но и специальное помещение в больнице, герметичный ящик и даже основатель группы Uriah Heep, «лук» — растение и оружие.

Чтобы давать пользователю точный и полный ответ на его вопрос, многие сервисы Яндекса учатся видеть за найденными на веб-страницах словами целостные объекты и понятия, отличать их друг от друга и осмысленно с ними работать. Яндекс.Новости группируют в сюжеты сообщения, поступающие из разных источников, составляют в автоматическом режиме пресс-портреты упомянутых в сообщениях людей. Яндекс.Маркет формирует карточки товаров с их подробным структурированным описанием, основываясь на информации от продавцов.

Яндекс.Словари также сделали первый шаг в этом направлении. С помощью алгоритмов кластеризации мы разложили по полочкам почти полтора миллиона статей из более чем сотни источников, доступных на сервисе. Теперь города Пушкин, Лермонтов и Маркс, физические единицы ампер, джоуль и кельвин в результатах поиска отделены от людей, в честь которых они были названы. Белки показываются отдельно от белков, а статьи про каждого из пятидесяти известных нам Ивановых и более чем сотни Петровых собраны в свою группу. Конечно, математические алгоритмы не застрахованы от ошибок, но мы продолжаем их совершенствовать и рассчитываем, в том числе, на участие в этом процессе наших пользователей.

Группировка статей по объекту, которому они посвящены, не только помогает лучше понять, кто есть кто, но и открывает интересные перспективы дальнейшего развития. В частности, в новой формуле поиска — ещё одном нововведении на Яндекс.Словарях — размер и характеристики кластера (группы статей) влияют на его позицию в поисковой выдаче. Мы предполагаем, что понятия, статьи про которые есть в нескольких словарях, с большей вероятностью важны и интересны для пользователя. Другие улучшения пока находятся в стадии предварительной проработки, но они тоже обещают быть весьма и весьма интересными. Следите за обновлениями!


Команда Яндекс.Словарей,
любим порядок во всем

7 комментариев
Подписаться на комментарии к посту

Ура-ура. Давно ждали.

Молодцы! Ну и как не любить Яндекс после этого? :)))

Иванов Роман
9 июня 2011, 20:50
Лук это ещё и модное хипстерское занятие :-)

Спасибо за нововведение, очень полезно.

А что будет с "правописанием"? Теперь вообще никак нельзя по ссылкам попасть на страницу типа http://slovari.yandex.ru/%D0%BA%D0%BD%D0%B8%D0%B3%D0%B0/%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5? Только приписывать "правописание" к адресу? Это очень неудобно, особенно когда надо посмотреть полную языковую справку сразу по нескольким словам.

Планируется здесь какое-нибудь улучшение?


 

Действительно, сейчас информация из словарей русского языка показывается только по явно "словарным" запросам, таким как "ударение в слове договор" (см. справа). Мы в рамках ближайшего обновления сделаем показ блока "Русский язык" постоянным, а вскоре, надеюсь, дадим более удобную возможность искать по словарям русского языка.