Поиск в интернете проделал большой путь: от поиска по описаниям сайтов из каталога к поиску по текстам страниц, от учета ссылочной авторитетности (PageRank), интерпретации поведения пользователя на выдаче до сложных систем машинного обучения (MatrixNet). Сегодня мы на пороге следующего серьезного изменения.
В интернете уже опубликованы десятки, по другим подсчетам – сотни миллиардов веб-страниц. Более 99% из них созданы не людьми: являются спамом, дубликатами контента или другим автоматически сгенерированным мусором. По коротким поисковым запросам, например, [яндекс], в вебе может найтись более 100 млн. документов. Иногда в подобных случаях даже нет смысла искать слова по тексту страницы. Нам нужно понять, какие страницы по подобному запросу будут признаны другими людьми как наиболее авторитетные.
Аналогичный процесс информационной перегрузки имеет место при потреблении информации пользователями интернета. Многие материалы, с которыми вы можете столкнуться в сети, на первый взгляд похожи на что-то стоящее, но могут вводить вас в заблуждение или оказаться скрытой рекламой.
Чтобы решить эту проблему, люди давно научились выбирать сайты, например, новостные, которым они доверяют. Это им помогло, но сейчас этого уже недостаточно. Мы стали больше доверять не сообщениям «официальных» источников, а персонализированной информации, исходящей от знакомых, которым мы верим. Появившиеся социальные сети помимо функции общения стали играть роль сетей по эффективному распространению информации. А решение в них вопроса доверия и отбора информации привело к тому, что значительная часть информационной активности переместилась из классического веба в социальные сети.
Парадигма сегодняшнего интернета включает в себя слова "авторство", "авторитетность", "подписка", "дружба" и возникающий на основе этого – персональный информационный поток. Анонимная информация перестает оказывать влияние на людей, ибо просто не проходит через их фильтры. Веб-поиск, по нашему мнению, просто должен быть не глупее пользователей, уже научившихся отбирать информацию, и использовать схожие механизмы для адекватного ее восприятия.
Знаменитый Твиттер, с полным потоком данных которого (Firehose) недавно начал работать Яндекс, великолепно решил задачу построения сети распространения информации между людьми. Короткие твиты как результаты поиска могут быть полезны, когда какое-то важное событие происходит или произошло прямо сейчас, а классические медиа еще не успели осветить развитие ситуации. Эту задачу решает Real-Time поиск по Твиттеру (http://twitter.yandex.ru). Еще одно применение такого поиска – это поиск мнений людей о той информации, с которой пользователь уже знаком.
Однако именно поиск веб-страниц и других объектов в интернете, упомянутых в Твиттере или соцсетях, – это то, зачем по-настоящему нужны социальные сети поиску. Эту модель реализовал поисковик Топси (http://topsy.com), результаты которого теперь используются Яндексом. Анализируя упоминания материалов авторами, которым доверяет алгоритм, опираясь на понятие авторитетности для отсечения мусора, поиск может находить то, что наиболее интересно большинству людей. А Real-Time анализ популярности тем, обсуждаемых прямо сейчас в соцсетях, позволяет определять наличие событий и потребности у пользователя в свежих материалах.
Следите за нашими запусками в рамках программы поиска в социальном интернете.
Федор Романенко, в размышлениях о поиске
Зачем поиску социальные сети?
2 марта 2012, 16:39