Cюжеты в Яндекс.Новостях

Сюжет в Яндекс.Новостях — это подборка новостных сообщений, посвященных одному событию. Сюжеты формируются автоматически, путем определения текстового сходства сообщений.

  1. Как отображаются сюжеты
  2. Что влияет на выбор сообщений для показа на первой странице сюжета
  3. Как ранжируются сюжеты
  4. Персонализация ссылок
  5. Первоисточник сообщений
  6. Цитата

Как отображаются сюжеты

На первой странице сюжета отображается заголовок, краткое описание события и список ссылок на сообщения, из которых можно узнать подробности произошедшего.

Заголовком сюжета становится заголовок одного из сообщений, попавших в сюжет. Выбор заголовка происходит автоматически. Критериями оценки заголовков являются актуальность, информативность и читабельность.

Фрагмент текста, который используется для краткого описания новости, выделяется специальным алгоритмом из текста сообщения, заголовок которого стал заголовком сюжета. В этом фрагменте должны быть упомянуты наиболее значимые для понимания события факты — имена людей, названия организаций, географические объекты, даты и числа.

Сообщения в сюжете по умолчанию отсортированы по времени: более свежие расположены вверху. При этом хронологический порядок может быть нарушен из-за сообщений, полученных с Турбо-страниц. Они будут показаны выше.

Сюжет иллюстрируется фотографиями и видео, ссылки с которых ведут на новостные сообщения, использующие указанные материалы.

Что влияет на выбор сообщений для показа на первой странице сюжета

На первую страницу сюжета выводятся сообщения с максимальным весом, упорядоченные по времени публикации. На вес сообщения влияет его цитируемость в других материалах, вошедших в сюжет, время публикации и место источника в общем рейтинге. Все остальные сообщения, которые относятся к сюжету, доступны по ссылке Все источники.

Рейтинг источника сюжета строится на основе двух показателей:

  • Оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Чем позже источник сообщает о событии, тем ниже оперативность этого сообщения.

  • Цитируемость — определяется количеством ссылок на данный источник во всех сообщениях других источников за последние два месяца, а также количеством ссылающихся агентств. Учитываются как гиперссылки, так и текстовые упоминания с точностью до синонимичных названий (цитаты).

Этот рейтинг автоматически пересчитывается каждую неделю.

Как ранжируются сюжеты

Все сюжеты в Яндекс.Новостях сортируются по важности. Учитываются в первую очередь актуальность и количество сообщений в сюжете.

Алгоритмы анализа и ранжирования данных — оригинальная разработка Яндекса. Информацию о принципах работы алгоритмов можно найти в презентации Как работают Яндекс.Новости.

Персонализация ссылок

На странице сюжета находится большое количество ссылок на новостные ресурсы. Чтобы сэкономить время пользователя и сделать подборку сообщений полезнее, ссылки в сюжете могут быть выбраны с учетом предпочтений пользователя. Если в сюжете среди источников есть СМИ, сайт которого пользователь посещает чаще всего (переходит по ссылкам из Яндекс.Новостей), сообщение от этого СМИ, скорее всего, попадет на первую страницу сюжета.

Персонализация выполняется на основе обезличенных данных с помощью автоматических алгоритмов Яндекс.Новостей.

Настройки персонализации

Первоисточник сообщений

Первоисточник — это материал, который стал отправной точкой для создания новостей. Например, первоисточником для новостей о научном открытии может быть пресс-релиз лаборатории, где было сделано это открытие, а для новостей о падении метеорита — фотография этого события в социальной сети.

Зная первоисточник, вы можете проследить, кто первый опубликовал материал и откуда началось распространение новости, а также увидеть сообщение, которое цитируют и анализируют новостные агентства.

С помощью алгоритмов машинного обучения Яндекс.Новости могут автоматически определять сюжеты, для понимания которых важен первоисточник, и находить его в интернете. При поиске первоисточника учитывается, насколько материал соответствует сюжету, а также время его появления и авторитетность ссылающихся на него СМИ.

Информация о первоисточнике и ссылка на исходный материал представлены в блоке C чего всё началось.

Ограничение. Блок C чего всё началось отображается только для сюжетов, для которых удалось найти первоисточник с помощью алгоритмов Яндекса.

Цитата

Цитата — это блок, который показывает наиболее часто встречающееся высказывание о событии. Отображается под аннотацией сюжета.

Если в большинстве материалов упоминается одно и то же высказывание, алгоритм автоматически выделяет его, сопроводив именем и фамилией автора, а также ссылкой на сайт источника, на котором можно прочесть весь текст материала.

Ссылку на материал также выбирает алгоритм. Он ищет в материалах сюжета наиболее полное высказывание и при прочих равных условиях отдает предпочтение наиболее весомому источнику.

В качестве цитаты используются высказывания:

  • оформленные как прямая речь в кавычках;
  • с указанием имени и фамилии автора;
  • небольшие по размеру (2-3 предложения).