Как это работает? Объектный ответ в поиске

3 августа 2015, 16:08

Довольно часто люди приходят в интернет за быстрой справкой. Что такое [палимпсест]? [когда жил иван грозный]? [что снял вернер херцог], про которого я только что соврал, что, конечно же, смотрел его фильмы? В таких случаях Яндекс старается сократить путь пользователя до нужной информации — прямо на странице результатов поиска, справа от основной выдачи, появляется карточка с общей информацией о предмете запроса. Она называется «объектный ответ».

Объектный ответ по запросу [мадонна]

Показывать карточки с основными фактами об объектах на странице выдачи Яндекс начал в апреле 2015 года. На тот момент в базе объектных ответов были описания 92 миллионов известных личностей, фильмов, музыкальных альбомов, городов, лекарств, автомобилей и других сущностей. Сейчас их уже 110 млн — и это число стабильно растёт.

Помимо основных фактов, карточка объектного ответа содержит дополнительную информацию. Какую именно — зависит от типа объекта. Скажем, на карточке фильма довольно много фактов — по запросу [терминатор] Яндекс сообщит пользователю год выхода, жанр, режиссёра, продюсера, автора музыки и длительность первого «Терминатора», вкратце опишет сюжет, покажет рейтинг на КиноПоиске и предложит посмотреть трейлер. Объектный ответ по запросу [рига] будет состоять из общего описания города и информации о площади, населении и дате возникновения, а по запросу [снусмумрик] — из портрета персонажа и информации о том, из какого он произведения.

Кроме общей информации объектный ответ содержит дополнительные блоки. Один из них непосредственно относится к объекту запроса. Для запросов о кино Яндекс покажет блок «Актёры», о писателях — «Книги», о городах — «Достопримечательности» и так далее. Во второй блок попадают другие популярные объекты из той же категории — скажем, для Риги это прибалтийские города, а для Снусмумрика — персонажи детских книг.

В дальнейшем объектный ответ станет полнее. Например, туда может переехать часть колдунщиков, которые сейчас появляются среди результатов поиска по интернету. В первую очередь — плееры Музыки и Видео, чтобы в ответ на запрос [нирвана] пользователь получал карточку, содержащую — в дополнение к общей информации о группе — несколько популярных песен и клипов.

Карточки объектов формируются автоматически, с помощью семантического графа — модели, описывающей совокупность объектов, их свойств и связей между ними. Информация об объектах приходит из десятков источников. Например, факты о музыкантах берутся из Википедии, находятся на порталах discogs.com, musicbrainz.com и других специализированных сайтах с большими базами структурированных данных. Система оценивает степень совпадения информации, отсеивает дубли и противоречащие факты (например, разнящиеся годы жизни одного человека), а те, что дополняют друг друга, добавляет в карточку.
Формирование карточек объектного ответа

Список объектов в дополнительных блоках строится по похожей схеме. Только если в первом случае собираются и сопоставляются найденные в разных источниках факты об объектах, то для создания списка ассоциаций сопоставляются связи между этими объектами. Например, если в нескольких базах данных «Завтрак на траве» и «Олимпия» описаны как картины Эдуарда Мане, то, скорее всего, так оно и есть. А вот если в одной из них среди произведений Мане значатся «Кувшинки», но ни в одном другом источнике такая связь не встречается, то она может быть отсеяна как ошибочная. Это, впрочем, не значит, что редко встречающаяся связь автоматически отбраковывается. Среди прочих факторов система учитывает и авторитетность источника, поэтому в некоторых случаях в карточку попадают факты или связи, которые нашлись только на одном, но очень надёжном ресурсе.

Всего в базе объектных ответов несколько сотен миллионов связей. Поэтому просто составить список ассоциаций недостаточно. Нужно автоматически решить, какие из них показывать в карточке. Среди прочего, для этого используется метод машинного обучения Матрикснет, позволяющий учитывать множество факторов при анализе поведения пользователей. Например, Матрикснет может обратить внимание на то, что задав запрос [подсолнухи], люди часто не удовлетворяются результатами поиска и уточняют: [подсолнухи ван гог]. К тому же эти слова часто встречаются вместе в текстах — причём там же, как правило, упоминаются «Поль Гоген» и «Поль Сезанн». Учитывая эти и другие данные, система может сделать вывод, что связи между этими объектами представляют наибольший интерес для пользователей. Поэтому в блоках «Произведения» и «Смотрите также», сопровождающих карточку к запросу [ван гог], обязательно окажутся «Подсолнухи» и Гоген с Сезанном.

Наконец, на самом последнем этапе, когда карточка полностью готова, основанный на Матрикснете механизм решает, нужно ли её показывать, — может быть, пользователю совсем не интересна эта информация? Чтобы выяснить, соответствует ли карточка запросу, он сравнивает её с описаниями страниц в результатах поиска. Например, в ответ на запрос [getz] можно было бы показать информацию о саксофонисте Стене Гетце. Но, проанализировав результаты поиска, большинство из которых оказываются связаны с автомобилями, механизм ранжирования решит показать карточку машины.
Выбор карточки для показа пользователю

О том, как устроены другие поисковые технологии Яндекса, вы можете прочитать в соответствующем разделе на сайте компании.

15 комментариев

Авторизуйтесь, чтобы оставить комментарий

Александр Сигачёв

26 ноября 2015, 14:41

Отлично! Хоть кто-то толково использует Викиданные, на которые я трачу так много своего времени.
Хотя, наверное, Яндексу было бы полезнее диверсифицировать источники, чтобы показать свою мощь.

design@flyart.pro

26 ноября 2015, 14:41

А вы не думали реализовать в той или иной форме варианты, как в той же Википедии? Формата «Это про Мадонну, которая певица, а еще бывает Мадонна, которая Матерь Божья»

Илья

26 ноября 2015, 14:41

было бы круто, если бы в браузер или расширением было что-то типа "кликнул на слово и задержал-облачко с вкладками википедия-карты-фото"

Тимур

26 ноября 2015, 14:41

Илья,

когда-то рассказывали про похожую идею для Яндекс.Браузера http://habrastorage.org/files/9ea/65c/ed9/9ea65ced909947a6b72fbcc7c72517bb.png

Илья

26 ноября 2015, 14:41

Тимур,

вообще не удобно реализовано.. имел ввиду я нечто вроде qurio что ли(точно не помню как hfcobhtybt называется)..

Nekann

26 ноября 2015, 14:41

Класс! Да, удачный пример и хорошо, что в википедии в свое время переименовали Мадонна (артистка) в Мадонна (певица), а также забили на Madonna (entertainer).

Эко-Парк "Лазурный"

26 ноября 2015, 14:41

Давно нужно было сделать для нормальных контор, вечно мучаюсь с хорошими сайтами типа комплексов по мангальным зонам и беседкам, каждой отрасли нужно придумать классификации, чтобы не было продажи, а была аренда и наоборот. В зависимости от того, кто и что ищет. Мучаюсь с сайтом http://chelactive.ru/zones.php

26 ноября 2015, 14:41

Nice article

26 ноября 2015, 14:41

Awesome article...

Удалённый пользователь

26 ноября 2015, 14:41

Сикстинская Мадонна Кисти Рафаэля Санти - не "библейский персонаж", а живой человек, который ходил, жил и страдал на земле, Мама Иисуса Христа, почитаемого Православными Сыном Божьим. Это живой человек, реальная историческая и Духовная Личность, Богородица и Приснодева Мария.

ya.alex2500

8 июня 2016, 18:43

Хватит, надоело! Дурите маленьких!

Дима С.

18 августа 2016, 09:59

Между сюжетами и сюженами существует определённая связь надо её отрабатывать . - ВОЗЬМИТЕ ЭТО ЗА СЮЖЕН К СЮЖЕТУ.

suvorkin2009

29 декабря 2016, 19:19

Не говорите глупостев(Одесса) ,но-таки, вычитавайте грамматический позор, который вы вещаете ,и корректируйте. Деньги за это кто-то получает, таки да, или? Позор вам в наше прсвещённое время. Может я не прав, а если?? Таки работайте по совести и образованию, если оно не просто куплено или за бесплатно. А оно мне надо?? Но только в Яндексе я боюсь всегда напороться на безграммотность в нескольких строчках. И не говорите, что это вам так прислали, и вы не можете вписаться. Если что, я пришлю вам человека, который за 2 дня научит вас делать всё правильно и очень просто.

ea@delasia.ru

26 июля 2017, 19:27

Вопрос, а если часть данных показывается неправильно/некорректно. как это редактировать? У нас при запросе нашей компании показывается сайт совсем другой компании, к которой сейчас не имеем никакого отношения. Что делать?

NosachGrig

29 октября 2020, 08:32

ea@delasia.ru,

добрый день! Аналогичная ситуация. У Вас разрешилось? Куда писать о корректировке?