Cюжеты в Яндекс.Новостях

Сюжет в Яндекс.Новостях — это подборка новостных сообщений, посвященных одному событию. Сюжеты формируются автоматически, путем определения текстового сходства сообщений.

  1. Как отображаются сюжеты
  2. Что влияет на выбор сообщений для показа на первой странице сюжета
  3. Как ранжируются сюжеты
  4. Персонализация ссылок в сюжете
  5. Первоисточник сообщений в сюжете

Как отображаются сюжеты

На первой странице сюжета отображается заголовок, краткое описание события и список ссылок на сообщения, из которых можно узнать подробности произошедшего.

Заголовком сюжета становится заголовок одного из сообщений, попавших в сюжет. Выбор заголовка происходит автоматически. Критериями оценки заголовков являются актуальность, информативность и читабельность.

Фрагмент текста, который используется для краткого описания новости, выделяется специальным алгоритмом из текста сообщения, заголовок которого стал заголовком сюжета. В этом фрагменте должны быть упомянуты наиболее значимые для понимания события факты — имена людей, названия организаций, географические объекты, даты и числа.

Сообщения в сюжете по умолчанию отсортированы по времени: более свежие расположены вверху. При этом хронологический порядок может быть нарушен из-за сообщений, полученных с Турбо-страниц. Они будут показаны выше.

Сюжет иллюстрируется фотографиями и видео, ссылки с которых ведут на новостные сообщения, использующие указанные материалы.

Что влияет на выбор сообщений для показа на первой странице сюжета

На первую страницу сюжета выводятся сообщения с максимальным весом, упорядоченные по времени публикации. На вес сообщения влияет его цитируемость в других материалах, вошедших в сюжет, время публикации и место источника в общем рейтинге. Все остальные сообщения, которые относятся к сюжету, доступны по ссылке Все источники.

Рейтинг источника сюжета строится на основе двух показателей:

  • Оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Чем позже источник сообщает о событии, тем ниже оперативность этого сообщения.

  • Цитируемость — определяется количеством ссылок на данный источник во всех сообщениях других источников за последние два месяца, а также количеством ссылающихся агентств. Учитываются как гиперссылки, так и текстовые упоминания с точностью до синонимичных названий.

Этот рейтинг автоматически пересчитывается каждую неделю.

Как ранжируются сюжеты

Все сюжеты в Яндекс.Новостях сортируются по важности. Учитываются в первую очередь актуальность и количество сообщений в сюжете.

Алгоритмы анализа и ранжирования данных — оригинальная разработка Яндекса. Информацию о принципах работы алгоритмов можно найти в презентации Как работают Яндекс.Новости.

Персонализация ссылок в сюжете

На странице сюжета находится большое количество ссылок на новостные ресурсы. Чтобы сэкономить время пользователя и сделать подборку сообщений полезнее, ссылки в сюжете могут быть выбраны с учетом предпочтений пользователя. Если в сюжете среди источников есть СМИ, сайт которого пользователь посещает чаще всего (переходит по ссылкам из Яндекс.Новостей), сообщение от этого СМИ, скорее всего, попадет на первую страницу сюжета.

Персонализация выполняется на основе обезличенных данных с помощью автоматических алгоритмов Яндекс.Новостей.

Настройки персонализации

Первоисточник сообщений в сюжете

Первоисточник — это материал, который стал отправной точкой для создания новостей. Например, первоисточником для новостей о научном открытии может быть пресс-релиз лаборатории, где было сделано это открытие, а для новостей о падении метеорита — фотография этого события в социальной сети.

Зная первоисточник, вы можете проследить, кто первый опубликовал материал и откуда началось распространение новости, а также увидеть сообщение, которое цитируют и анализируют новостные агентства.

С помощью алгоритмов машинного обучения Яндекс.Новости могут автоматически определять сюжеты, для понимания которых важен первоисточник, и находить его в интернете. При поиске первоисточника учитывается, насколько материал соответствует сюжету, а также время его появления и авторитетность ссылающихся на него СМИ.

Информация о первоисточнике и ссылка на исходный материал представлены в блоке C чего всё началось.

Ограничение. Блок C чего всё началось отображается только для сюжетов, для которых удалось найти первоисточник с помощью алгоритмов Яндекса.