Каждый декабрь мы публикуем список событий, людей и явлений, ставших приметами уходящего года. Итоги года — популярный жанр: их подводят в телепередачах, на новостных сайтах, в газетах. Особенность нашего списка в том, что он составлен не редакцией, а алгоритмами: туда попадают темы, которые в течение года вызвали у пользователей Яндекса наибольший всплеск интереса.
Логично предположить, что интерес людей к той или иной теме соотносится с количеством поисковых запросов на эту тему. Но выявить темы, характерные для конкретного года, количество запросов не поможет. Список самых популярных тем остаётся примерно одинаковым на протяжении многих лет: люди изо дня в день спрашивают о погоде или о пробках на дорогах.
Поэтому «Темы года» — это не то, о чём много спрашивали в целом, а то, интерес к чему резко вырос в уходящем году. Это может быть новое явление — например, «брекзит» — или уже известный феномен, вновь ставший актуальным. Так произошло с покемонами: они вышли на новый виток популярности после релиза Pokémon Go. Резкий рост числа запросов на ту или иную тему мы называем всплеском.
Всплеск интереса к покемонам спровоцировала игра Pokémon Go, вышедшая 6 июля
Чтобы выявить актуальные темы и упорядочить их по важности, алгоритм проводит анализ всплесков. Сперва он выявляет запросы, которых в определённый момент стало гораздо больше, чем раньше, а затем группирует их по темам. Это не так-то просто: ведь об одном и том же можно спросить совершенно по-разному.
Для начала в группу собираются запросы, которые содержат одно и то же слово или набор слов: допустим, [лабутены песня], [лабутены туфли], [лабутены ленинград], [лабутены купить]. Затем алгоритм смотрит на другие слова, которые встречаются в этих же запросах, и выявляет связи между ними. Благодаря этому можно понять, что слова «клип» и «экспонат» указывают на интерес к песне группы «Ленинград», а слова «купить» и «цена» — к туфлям. Это две разные темы.
Чтобы сделать список тем ещё точнее, алгоритм сравнивает поисковую выдачу по разным запросам из получившихся групп. Запросы, в ответ на которые выдаются одни и те же сайты, скорее всего, относятся к одной теме.
Когда список тем готов, их ранжируют по силе всплеска — разнице между числом запросов до всплеска и на пике интереса к теме. Сила оценивается в баллах от одного до ста. Сравнив баллы, можно выяснить, какая из тем вызвала больший резонанс. Так, очередной сезон «Игры престолов» (100 баллов) интересовал пользователей сильнее, чем выборы в США (75 баллов) и новый айфон (78 баллов).
Всплески используются не только для того, чтобы собрать список важного за год. С их помощью также можно выделять «темы недели» или «темы месяца» — как для всей страны, так и для отдельных регионов. Отчёты о событиях, которые вызывают у людей особый интерес, помогают СМИ сформировать информационную повестку — поэтому мы делимся ими с журналистами через проект «Яндекс для медиа».
Ссылки
Сайт «Темы года в поиске Яндекса» — расскажет, как менялся интерес пользователей к разным людям, событиям и явлениям по всей России и в отдельных регионах.
Тест «В этом году или нет?» — поможет проверить память и понять, насколько ваше восприятие времени совпадает с реальностью.
Набор стикеров «Мемы года» — внесёт разнообразие в диалоги в Telegram.