Классифицируй это: как определить тему поисковых запросов

В основе многих исследований Яндекса лежит анализ поисковых запросов. Иногда нужно понять тему запроса — то, о чём спрашивает пользователь. Это можно делать вручную, но такая работа занимает много времени. Если нужно проанализировать большое количество запросов — хотя бы сотни тысяч, мы используем автоматический классификатор. Как он устроен, рассказывает руководитель отдела внешних исследований Яндекса Наталия Крупенина.

Наталия Крупенина,
руководитель отдела внешних исследований Яндекса

У большинства поисковых запросов есть тема — это то, о чём спрашивает пользователь: автомобили, банки, домашние животные. В некоторых случаях определить тему несложно. Например, тема запроса [симптомы гриппа] — здоровье. Иногда у одного запроса может быть несколько тем: [жаропонижающее для детей до года] касается и здоровья, и детей. Бывает, что тема вроде бы одна, но определить её трудно. Запрос [снежная королева] может касаться одежды, сказки Андерсена, фильма или детского спектакля. Чтобы достоверно определить тему запроса в данном случае, нужно понять, что имел в виду пользователь.

Темы поисковых запросов определяет автоматический классификатор. Он не может знать, что именно люди имеют в виду в каждом конкретном случае, но может учесть их поведение — на какие сайты они переходят из результатов поиска.

В основе работы классификатора лежит разметка наиболее популярных сайтов. Для каждого из нескольких тысяч адресов мы вручную определяем основную тему. При этом мы опираемся на наборы запросов, по которым пользователи переходят на каждый сайт — поскольку нас интересует тема не сама по себе, а именно в связи с поиском. Определить основную тему получается у 80% популярных сайтов, на остальные переходят по запросам на разные темы. Всего мы выделяем несколько десятков тем в самых разных сферах жизни — от животных и бизнеса до IT и эзотерики.

Дальше классификатор переносит ручную разметку нескольких тысяч сайтов на миллионы сайтов рунета. Он определяет, на какие сайты переходят по запросам с теми же формулировками, что и на размеченные вручную ресурсы, и выставляет вероятности тем. Чем больше запросов совпало, тем выше вероятность, что сайт относится к той же теме. В результате каждому ресурсу классификатор присваивает несколько наиболее вероятных тем. Есть сайты, у которых чётко выделяется преимущественная тема. Например, на сайты, посвящённые кино, переходят в основном по запросам, связанным с фильмами, сериалами и мультфильмами. У других сайтов темы более расплывчатые — скажем, сайты про детей часто неразрывно связаны со здоровьем взрослых, а сайты про ремонт — с рукоделием.

Зная темы сайтов, классификатор может определить темы запросов. Для каждого запроса он считает, сколько раз по нему переходили на сайты с разными темами, и определяет доли каждой темы. Например, запрос [снежная королева] на 55% относится к теме «одежда», на 25% к «литературе» и на 15% к «детям». Оставшиеся 5% распределяются по другим темам. А запрос [носки черные мужские цена] относится к теме «одежда» на 99%.

Как выглядят поисковые запросы и сайты рунета с точки зрения классификатора, можно показать в виде карт. Суммарная доля запросов, которые невозможно отнести к одной теме, составляет 40%, а сайтов — 60%. На картах они обозначены океанами. Чёткие темы показаны в виде стран, расплывчатые — например, «домашнее хозяйство», в которую могут попадать запросы и про ремонт, и про детей, и про еду — в виде морей, омывающих близкие темы.

В реальности темы лучше не сравнивать друг с другом напрямую. Из-за того, что в основе классификатора лежит разметка наиболее популярных сайтов, а не просто случайных, популярные темы также получают преимущество. Поэтому в исследованиях мы сравниваем не темы между собой, а интерес к каждой теме в разных срезах.

11 комментариев
Владимир Б.
17 августа 2017, 13:30
А в представленном наглядном примере запрос "кино о любви с китайскими актерами" классификатор точно корректно классифицировал?
Обновлено 17 августа 2017, 13:31
Света Чистякова
Сотрудник Яндекса17 августа 2017, 14:12
Здравствуйте. А вы бы как классифицировали?
Владимир Б.
17 августа 2017, 14:30
Света Чистякова,
Добрый день. Мой внутренний классификатор в подобных случаях часто выдает ассоциативные промахи ввиду некоторых "особенностей" составления базы для обучения, не обращайте внимания.
Обновлено 17 августа 2017, 14:34
Света Чистякова
Сотрудник Яндекса17 августа 2017, 14:39
:)
Удалённый пользователь
18 августа 2017, 11:52
А почему музыка и порно так близко?
Разъясните пожалуйста. 

Надежда Синица
20 августа 2017, 14:17
ЗДРАВСТВУЙТЕ! СКАЖИТЕ ЧТО ДЕЛАТЬ! ВЧЕРА ЗАБРАЛА ДЕНЬГИ КОТОРЫЕ ПЕРЕВЕЛА НА КАРТУ ЧЕРЕЗ НОМЕР ТЕЛЕФОНА. ПРИШЛА ССЫЛКА ПО СМС ТАМ БЫЛ КОД. ВВЕЛА ВСЁ В Т.Ч. ПАСПОРТ НО ДО СИХ ПОР НИЧЕГО НЕ ПРИШЛО. СКОРО БУДУТ СУТКИ! КУДА ПИСАТЬ НЕ ЗНАЮ. ИЗВИНИТЕ, ПОЭТОМУ НАПИСАЛА ВАМ
Наше старе село
21 августа 2017, 00:07
Надежда Синица,
Пишите в техподдержку "Яндекс.Деньги"
Прекрасная карта, ещё бы такую по коммерческим тематикам )
Наталия, добрый день!
Большое спасибо за статью!
Подскажите, пожалуйста, по какой логике была определена принадлежность запроса "Самые крутые яхты в мире" к категории "Приколы"?
Что-то я не могу догадаться:(.
Apple-iPhone(точка)ru
23 августа 2017, 19:21
Вот бы Яндекс на базе этих наработок выпустил сервис подбора релевантных статей для контентных сайтов ... пусть даже платный.
Ок. В каком материке сфера бытовых услуг на карте? Наример ремонт телевизоров или тп.?