Что произошло
Недавно Яндекс начал показывать в результатах поиска вкладку с обсуждаемым контентом по запросам о фильмах, географических объектах и известных личностях. Некоторые пользователи заметили, что во вкладке не всегда отображался качественный контент. Мы внимательно изучили все отзывы, и мы признаём, что у нас не получилось создать хороший продукт. Поэтому мы приняли решение убрать эту вкладку из поисковой выдачи. Теперь мы хотим объяснить, что мы хотели сделать и какие ошибки совершили.
Чего мы хотели добиться и зачем мы это сделали
Многие запросы к Яндексу люди задают, чтобы получить справку, информацию о том или ином объекте. Мы даём эту справку прямо в результатах поиска и постоянно стремимся сделать её лучше, чтобы люди могли составить наиболее полное представление об объекте запроса.
Когда мы ищем информацию об известном человеке или какой-нибудь достопримечательности, одной Википедии недостаточно — хочется посмотреть картинки, видео или почитать свежие новости. Поэтому мы решили добавить в ответ поиска интересный и обсуждаемый контент, автоматически собранный с разных сервисов Яндекса: Кью, Коллекций, Новостей, Кинопоиска, Видео и так далее.
Например, по запросам об известных людях (актёрах, спортсменах, музыкантах) Поиск может предложить подборки фотографий из Коллекций, свежие публикации в прессе, видеоклипы. А для фильмов и игр — обзоры и рецензии из КиноПоиска, обсуждения в Кью, отзывы пользователей на Яндексе.
Так в результатах поиска появилась вкладка с обсуждаемым контентом. Вот примеры, которые отражают наш замысел:
Как это работало
Вкладка с дополнительным контентом формировалась автоматически, информация в ней отображалась в хронологическом порядке.
Наши алгоритмы включали в этот раздел контент с упоминанием объекта или ссылками на него в заголовке и в тексте. Кроме того, на отбор результатов влияли и другие факторы, например лайки и просмотры. Контент также проходил предварительную фильтрацию. Отсеивалось совсем неприемлемое, например контент для взрослых и тому подобное.
Для новостей были дополнительные критерии. Поскольку новости быстро устаревают, а мы стремились показать самую актуальную информацию, использовались только новости за последние 3 дня и хотя бы с одним комментарием.
Что пошло не так
Любая новая функциональность проходит предварительную проверку, прежде чем её увидит хотя бы один пользователь. В этом случае проверка включала выборочную оценку контента для нескольких сотен случайных объектов на релевантность и неприемлемость (контент для взрослых, шок-контент). Результаты проверки нас устроили, и мы запустили продукт.
К сожалению, после запуска в продукте стали появляться проблемы, и мы эти проблемы не заметили. После того как на этой неделе пользователи обратили на них внимание и появились жалобы, мы стали разбираться в ситуации и нашли много разных ответов, контент в которых оказался некачественным.
Для некоторых объектов показывались формально соответствующие запросу, но неинтересные, нишевые или некачественные документы. Это связано с тем, что плохо работал отбор топа документов — например, отдавалось предпочтение свежим или комментируемым документам в ущерб релевантности и не применялись ранжирующие алгоритмы, которые призваны обеспечить качество продукта. В некоторых случаях на страницу поисковой выдачи попадали случайные свежие публикации из-за того, что у них были комментарии. Именно это случилось с выдачей по запросу [Навальный], что стало темой широкого обсуждения.
Другие примеры показа случайных новостей:
Иногда мы показывали документы, которые не относятся к объекту:
Какие выводы мы сделали
Мы хотели бы извиниться перед всеми людьми, которых обидел или оскорбил наш неудачный продукт. Мы также хотим поблагодарить за обратную связь всех неравнодушных пользователей.
Попытка улучшить качество поиска может дать достаточно хорошие результаты в среднем, но отдельные неудачные примеры могут поставить под сомнение всю идею такого улучшения. Еще раз посмотрев на получившееся качество и получив массу негативных комментариев, мы приняли решение отключить вкладку с дополнительным контентом для всех пользователей. В будущем мы улучшим тестирование новых функций перед запуском, чтобы избежать подобной ситуации.