Яндекс.Новости — крупнейший в рунете агрегатор новостных сообщений. Каждый день этот сервис получает материалы от нескольких тысяч СМИ и автоматически формирует из них новостную картину дня. Это очень сложная задача: нужно структурировать огромное количество информации, выделить самое важное и предоставить результат читателям в понятном виде. Нас часто спрашивают, как работают Яндекс.Новости, и в этой публикации мы постараемся ответить на ваши вопросы. А если что-то забудем — спрашивайте в комментариях.
Главная и определяющая особенность Яндекс.Новостей — отсутствие человеческого вмешательства. У нас нет редакторов и модераторов. Мы не пишем собственных материалов, у нас нет «редакционной политики» и своей точки зрения. Мы не СМИ. Все новости мы получаем от партнёров. Их материалы Новости не публикуют у себя целиком, а используют только фрагменты сообщений и заголовки. На сегодняшний день у Яндекс.Новостей около 6000 партнёров. В среднем они выпускают более 110 тысяч сообщений в будний день.
Всё, что вы видите на страницах Яндекс.Новостей, — это результат работы алгоритмов. Они должны показать читателю полную и беспристрастную картину дня, сложить её из тысяч новостных сообщений. Яндекс.Новости являются входной точкой в медиапространство. Их задача — донести до вас всё, о чём пишут СМИ, говорят по радио и по телевизору. Что читать и где — вы решаете сами.
Сообщения объединяются в сюжет с помощью алгоритма кластеризации. Сначала робот Новостей анализирует все сообщения от партнёров и выделяет в них ключевые слова и факты с помощью разработанной в Яндексе технологии извлечения фактов. Затем он сравнивает выделенное и группирует сообщения по сюжетам. После того как сообщения сюжета отобраны, их необходимо отранжировать, и это самый интересный этап работы.
Даже человеку сложно решить, какая из десятков, а иногда и сотен новостей об одном и том же событии интереснее и полнее. Что говорить о компьютере. Чтобы формализовать этот выбор, робот Яндекс.Новостей рассчитывает «вес» сообщения на основе трёх критериев:
• цитируемость (сколько ссылок на это сообщение в других сообщениях сюжета, без учёта ссылок в аффилированных СМИ и самоцитирования),
• свежесть (время публикации сообщения по сравнению с другими источниками),
• информативность (наполненность сообщения ключевыми фактами сюжета).
Почему критерии именно такие? Мы ориентируемся на ожидания читателей: информация должна быть актуальной, полной и достоверной. Актуальность и полноту робот измерить может, а с достоверностью помогает цитируемость. Этот параметр сродни индексу цитирования в научном мире. Он говорит о том, насколько сообщениям этого СМИ доверяют другие издания.
Из фрагментов трёх лучших по этим критериям сообщений формируется краткое описание сюжета (аннотация). Фрагменты сообщений в аннотации должны содержать основные факты: даты и числа, названия объектов и организаций, имена людей, часто цитируемые высказывания. Как правило, фрагменты подбираются таким образом, чтобы дополнять друг друга и дать читателю как можно более полную картину произошедшего.
По тому же принципу выбирается заголовок сюжета. Прочитав его, вы должны сразу понять, о чём речь, поэтому он должен наиболее полно отражать актуальную фактическую сторону сюжета и не содержать лишних слов.
Под аннотацией в сюжете расположены другие сообщения СМИ о событии. Из всех сообщений робот выбирает наиболее цитируемые и ранжирует их по свежести. Остальные новости в виде хронологической ленты можно увидеть по ссылке в конце списка новостей. Приблизительно каждые 20 минут в сюжет добавляются свежие новости.
Кроме параметров самого сообщения при ранжировании учитывается ещё один фактор — вес источника, то есть СМИ, опубликовавшего новость. Он зависит от двух показателей. Это цитируемость — количество ссылок на источник в сообщениях других СМИ за последние два месяца — и оперативность — показатель того, насколько быстро источник реагирует на то или иное событие. Эти показатели автоматически пересчитываются раз в неделю. К примеру, на момент публикации этого текста первая двадцатка СМИ по весу выглядела так (в алфавитном порядке): Агентство спортивных новостей «Р-Спорт», «Ведомости», «Газета.Ru», «Известия», «Интерфакс», ИТАР-ТАСС, «Коммерсант», «Комсомольская правда», НТВ, ПРАЙМ, РБК, РИА Новости, «Росбалт», «Российская газета», «Спорт-Экспресс», телеканал «Дождь», «Чемпионат.com», «Эхо Москвы», Lenta.ru, REGNUM.
Вес СМИ играет незначительную роль при ранжировании сообщений. Он помогает нам в другом — ранжировать сюжеты. Как внутри сюжетов выбираются основные сообщения, так и внутри Яндекс.Новостей выбираются основные сюжеты. Вес источника помогает роботу оценить важность события. Если о каком-то событии пишут многие СМИ с большим весом, оно с высокой вероятностью важнее того события, о котором пишут менее весомые издания. Из этих важных событий и складывается новостная картина дня.
Как отбираются новости для главной страницы Яндекса?
На главной странице Яндекса должны оказаться самые важные события — такие, которые попали на главные страницы авторитетных СМИ. Поэтому при выборе новостей для главной страницы учитывается много разных параметров: количество сообщений об этом событии, вес пишущих о нём источников, плотность потока сообщений в единицу времени, а также позиция новости на сайте источника. Таким образом, на главную страницу Яндекса с большей вероятностью попадут события, о которых много пишут и которые попали на главные страницы авторитетных СМИ.
Почему в топе слишком много негативных новостей?
Яндекс.Новости собирают и структурируют информацию автоматически, они являются зеркалом медиасреды. Другими словами, мы лишь отражаем то, о чём пишут СМИ.
Почему в Яндекс.Новостях появляются опечатки?
Мы не вмешиваемся в работу алгоритмов. Все сообщения наших партнёров попадают в Яндекс.Новости в том виде, в каком они были переданы. Мы не исправляем опечатки вручную, а информируем источник об ошибке.
P.S. Если у вас есть вопросы о работе Яндекс.Новостей, задавайте их в комментариях. Кроме того, скоро мы проведём семинар на тему «Как работают Яндекс.Новости» для всех заинтересованных представителей СМИ. Отправляйте ваши заявки на news@support.yandex.ru, на ближайший семинар мы пригласим первых 70 записавшихся.
Команда Яндекс.Новостей