Всем известно, что одно и то же слово нередко означает совершенно разные предметы. Например, «бокс» — не только вид спорта, но и специальное помещение в больнице, герметичный ящик и даже основатель группы Uriah Heep, «лук» — растение и оружие.
Чтобы давать пользователю точный и полный ответ на его вопрос, многие сервисы Яндекса учатся видеть за найденными на веб-страницах словами целостные объекты и понятия, отличать их друг от друга и осмысленно с ними работать. Яндекс.Новости группируют в сюжеты сообщения, поступающие из разных источников, составляют в автоматическом режиме пресс-портреты упомянутых в сообщениях людей. Яндекс.Маркет формирует карточки товаров с их подробным структурированным описанием, основываясь на информации от продавцов.
Яндекс.Словари также сделали первый шаг в этом направлении. С помощью алгоритмов кластеризации мы разложили по полочкам почти полтора миллиона статей из более чем сотни источников, доступных на сервисе. Теперь города Пушкин, Лермонтов и Маркс, физические единицы ампер, джоуль и кельвин в результатах поиска отделены от людей, в честь которых они были названы. Белки показываются отдельно от белков, а статьи про каждого из пятидесяти известных нам Ивановых и более чем сотни Петровых собраны в свою группу. Конечно, математические алгоритмы не застрахованы от ошибок, но мы продолжаем их совершенствовать и рассчитываем, в том числе, на участие в этом процессе наших пользователей.
Группировка статей по объекту, которому они посвящены, не только помогает лучше понять, кто есть кто, но и открывает интересные перспективы дальнейшего развития. В частности, в новой формуле поиска — ещё одном нововведении на Яндекс.Словарях — размер и характеристики кластера (группы статей) влияют на его позицию в поисковой выдаче. Мы предполагаем, что понятия, статьи про которые есть в нескольких словарях, с большей вероятностью важны и интересны для пользователя. Другие улучшения пока находятся в стадии предварительной проработки, но они тоже обещают быть весьма и весьма интересными. Следите за обновлениями!
Команда Яндекс.Словарей,
любим порядок во всем