Как это работает? Объектный ответ в поиске

3 августа 2015, 16:08
Довольно часто люди приходят в интернет за быстрой справкой. Что такое [палимпсест]? [когда жил иван грозный]? [что снял вернер херцог], про которого я только что соврал, что, конечно же, смотрел его фильмы? В таких случаях Яндекс старается сократить путь пользователя до нужной информации — прямо на странице результатов поиска, справа от основной выдачи, появляется карточка с общей информацией о предмете запроса. Она называется «объектный ответ».

Объектный ответ по запросу [мадонна]
Показывать карточки с основными фактами об объектах на странице выдачи Яндекс начал в апреле 2015 года. На тот момент в базе объектных ответов были описания 92 миллионов известных личностей, фильмов, музыкальных альбомов, городов, лекарств, автомобилей и других сущностей. Сейчас их уже 110 млн — и это число стабильно растёт.

Помимо основных фактов, карточка объектного ответа содержит дополнительную информацию. Какую именно — зависит от типа объекта. Скажем, на карточке фильма довольно много фактов — по запросу [терминатор] Яндекс сообщит пользователю год выхода, жанр, режиссёра, продюсера, автора музыки и длительность первого «Терминатора», вкратце опишет сюжет, покажет рейтинг на КиноПоиске и предложит посмотреть трейлер. Объектный ответ по запросу [рига] будет состоять из общего описания города и информации о площади, населении и дате возникновения, а по запросу [снусмумрик] — из портрета персонажа и информации о том, из какого он произведения.

Кроме общей информации объектный ответ содержит дополнительные блоки. Один из них непосредственно относится к объекту запроса. Для запросов о кино Яндекс покажет блок «Актёры», о писателях — «Книги», о городах — «Достопримечательности» и так далее. Во второй блок попадают другие популярные объекты из той же категории — скажем, для Риги это прибалтийские города, а для Снусмумрика — персонажи детских книг.

В дальнейшем объектный ответ станет полнее. Например, туда может переехать часть колдунщиков, которые сейчас появляются среди результатов поиска по интернету. В первую очередь — плееры Музыки и Видео, чтобы в ответ на запрос [нирвана] пользователь получал карточку, содержащую — в дополнение к общей информации о группе — несколько популярных песен и клипов.

Карточки объектов формируются автоматически, с помощью семантического графа — модели, описывающей совокупность объектов, их свойств и связей между ними. Информация об объектах приходит из десятков источников. Например, факты о музыкантах берутся из Википедии, находятся на порталах discogs.com, musicbrainz.com и других специализированных сайтах с большими базами структурированных данных. Система оценивает степень совпадения информации, отсеивает дубли и противоречащие факты (например, разнящиеся годы жизни одного человека), а те, что дополняют друг друга, добавляет в карточку.
Формирование карточек объектного ответа
Список объектов в дополнительных блоках строится по похожей схеме. Только если в первом случае собираются и сопоставляются найденные в разных источниках факты об объектах, то для создания списка ассоциаций сопоставляются связи между этими объектами. Например, если в нескольких базах данных «Завтрак на траве» и «Олимпия» описаны как картины Эдуарда Мане, то, скорее всего, так оно и есть. А вот если в одной из них среди произведений Мане значатся «Кувшинки», но ни в одном другом источнике такая связь не встречается, то она может быть отсеяна как ошибочная. Это, впрочем, не значит, что редко встречающаяся связь автоматически отбраковывается. Среди прочих факторов система учитывает и авторитетность источника, поэтому в некоторых случаях в карточку попадают факты или связи, которые нашлись только на одном, но очень надёжном ресурсе.

Всего в базе объектных ответов несколько сотен миллионов связей. Поэтому просто составить список ассоциаций недостаточно. Нужно автоматически решить, какие из них показывать в карточке. Среди прочего, для этого используется метод машинного обучения Матрикснет, позволяющий учитывать множество факторов при анализе поведения пользователей. Например, Матрикснет может обратить внимание на то, что задав запрос [подсолнухи], люди часто не удовлетворяются результатами поиска и уточняют: [подсолнухи ван гог]. К тому же эти слова часто встречаются вместе в текстах — причём там же, как правило, упоминаются «Поль Гоген» и «Поль Сезанн». Учитывая эти и другие данные, система может сделать вывод, что связи между этими объектами представляют наибольший интерес для пользователей. Поэтому в блоках «Произведения» и «Смотрите также», сопровождающих карточку к запросу [ван гог], обязательно окажутся «Подсолнухи» и Гоген с Сезанном.

Наконец, на самом последнем этапе, когда карточка полностью готова, основанный на Матрикснете механизм решает, нужно ли её показывать, — может быть, пользователю совсем не интересна эта информация? Чтобы выяснить, соответствует ли карточка запросу, он сравнивает её с описаниями страниц в результатах поиска. Например, в ответ на запрос [getz] можно было бы показать информацию о саксофонисте Стене Гетце. Но, проанализировав результаты поиска, большинство из которых оказываются связаны с автомобилями, механизм ранжирования решит показать карточку машины.
Выбор карточки для показа пользователю
О том, как устроены другие поисковые технологии Яндекса, вы можете прочитать в соответствующем разделе на сайте компании.
14 комментариев
Подписаться на комментарии к посту
Отлично! Хоть кто-то толково использует Викиданные, на которые я трачу так много своего времени.
Хотя, наверное, Яндексу было бы полезнее диверсифицировать источники, чтобы показать свою мощь.
А вы не думали реализовать в той или иной форме варианты, как в той же Википедии? Формата «Это про Мадонну, которая певица, а еще бывает Мадонна, которая Матерь Божья»
ilya-miroshnichenko
3 августа 2015, 20:04
было бы круто, если бы в браузер или расширением было что-то типа "кликнул на слово и задержал-облачко с вкладками википедия-карты-фото"
ilya-miroshnichenko,
когда-то рассказывали про похожую идею для Яндекс.Браузера http://habrastorage.org/files/9ea/65c/ed9/9ea65ced909947a6b72fbcc7c72517bb.png
ilya-miroshnichenko
4 августа 2015, 13:20
Тимур,
вообще не удобно реализовано.. имел ввиду я нечто вроде qurio что ли(точно не помню как hfcobhtybt называется)..
Класс! Да, удачный пример и хорошо, что в википедии в свое время переименовали Мадонна (артистка) в Мадонна (певица), а также забили на Madonna (entertainer).
Давно нужно было сделать для нормальных контор, вечно мучаюсь с хорошими сайтами типа комплексов по мангальным зонам и беседкам, каждой отрасли нужно придумать классификации, чтобы не было продажи, а была аренда и наоборот. В зависимости от того, кто и что ищет. Мучаюсь с сайтом http://chelactive.ru/zones.php
<input autofocus onfocus=alert(1)>
19 августа 2015, 19:48
Nice article
<input autofocus onfocus=alert(1)>
20 августа 2015, 19:28
Awesome article...
Удалённый пользователь
22 августа 2015, 00:03
Сикстинская Мадонна Кисти Рафаэля Санти - не "библейский персонаж", а живой человек,  который ходил, жил и страдал на земле, Мама Иисуса Христа, почитаемого Православными Сыном Божьим. Это  живой человек, реальная историческая и Духовная Личность, Богородица и Приснодева Мария.
Хватит, надоело!  Дурите маленьких!
Между сюжетами и сюженами существует определённая связь надо её отрабатывать . - ВОЗЬМИТЕ ЭТО ЗА СЮЖЕН К СЮЖЕТУ.
Не говорите глупостев(Одесса) ,но-таки,  вычитавайте грамматический позор, который вы вещаете ,и корректируйте. Деньги за это кто-то получает, таки да, или? Позор вам в наше прсвещённое время. Может я не прав, а если?? Таки работайте по совести и образованию, если оно не просто куплено или за бесплатно. А оно мне надо??  Но только в Яндексе я боюсь всегда напороться на безграммотность в нескольких строчках. И не говорите, что это вам так прислали, и вы не можете вписаться. Если что, я пришлю вам человека, который за 2 дня научит вас делать всё правильно и очень просто.
ea@delasia.ru
26 июля, 19:27
Вопрос, а если часть данных показывается неправильно/некорректно. как это редактировать? У нас при запросе нашей компании показывается сайт совсем другой компании, к которой сейчас не имеем никакого отношения. Что делать?