Каждый год в декабре аналитики Яндекса определяют главные темы года. Они изучают поисковые запросы и составляют списки людей, событий, сериалов — в общем, всего того, что было в центре внимания россиян в течение года.
Вот такими, например, получились списки событий и людей, которые в 2019 году заинтересовали жителей России больше всего:
Списки главных спортивных событий, сериалов, фильмов, песен и игр вы найдёте на странице проекта «Темы 2019 года в поиске Яндекса». Там же можно поделиться личными итогами года — выбрать три темы и собрать личную карточку 2019-го.
Как мы определяем темы года
Уровень интереса к той или иной теме можно определить по тому, как часто о ней спрашивают. Но для того, чтобы выявить темы, ставшие актуальными именно в последний год, этот показатель не подходит. Топ, составленный просто по числу запросов, ничего не говорил бы про уходящий год: в список людей каждый год попадали бы те, кого стабильно показывают по телевизору, в список событий — праздники и ежегодные спортивные соревнования.
Поэтому мы смотрим не на общее число связанных с той или иной темой запросов, а на то, как выросло это число по сравнению с прошлым годом. Например, про собор Парижской Богоматери спрашивают каждый год, но в этом апреле, когда в соборе произошёл пожар, число запросов взлетело в разы. Общая масса такой волны, поднимающейся над обычным уровнем интереса, и определяет место темы в топе.
Чтобы найти все запросы на одну и ту же тему, мы используем алгоритм. Он учитывает, из каких слов состоят запросы, когда они были заданы и какие страницы предложил в ответ поиск. Полученные таким образом кластеры проверяются вручную. Важно убедиться, что в кластер не попали запросы на другие темы — например, чтобы не смешался интерес к фильму «Дылда» и сериалу «Дылды».
Полученный список тем ранжируется по величине волны интереса, после чего разбивается на отдельные категории: события, люди, фильмы, сериалы и так далее.
Составление и проверка топов тем года — довольно трудоёмкое дело, поэтому мы начинаем их подготовку заранее, в начале декабря, когда у нас есть данные только за 11 месяцев. В большинстве категорий неполнота периода никак не влияет на результат, однако для составления топов людей и событий мы постарались охватить максимально большой период. В итоге топы фильмов и мультфильмов, сериалов, песен и игр были составлены по запросам, заданным с 1 января по 29 ноября, списки людей и событий — по данным с 1 января по 12 декабря.