Легко ли быть зеркалом?

9 июля 2010, 11:44

Яндекс всегда хотел быть зеркалом интернета. На 100% это невозможно, и мы хотим сделать вид, что мы — зеркало для тех, кто на нас смотрит. Мим за пустой рамкой несуществующего зеркала должен быть внимательным и иметь хорошую реакцию, чтобы создать иллюзию, что он — отражение. Мы в Яндексе работаем над технологиями «свежести», чтобы сделать отличия поискового индекса от интернета незаметными для людей.

Веб-мастера рунета знают, что последние несколько лет в Яндексе существовал так называемый «быстрый робот». В его задачу входила быстрая индексация и выкладывание на поиск наиболее ценных свежепоявившихся документов. Быстрый робот неплохо решал эту задачу, однако имел определенные ограничения.

Как и «большой робот», быстрый был построен по «пакетному» принципу: какое-то время готовил версию индекса с новыми документами, потом выкладывал ее на поиск. Это вносило задержку на время обработки, которую можно было сократить с помощью разных ухищрений для части документов до 20 минут, но нельзя было устранить полностью.

С момента запуска быстрого робота мир изменился. В интернете стало много людей, интересы которых далеки от технических проблем поиска, и у них вызывает крайнее изумление ситуация, когда страница на сайте есть, а в поиске ее нет. Именно поэтому правилом хорошего тона в ближайшие годы станет индексация нового за секунды.

Чтобы окончательно сделать из поискового индекса отражение, мы создали и запустили новые технологии — робот «Orange Crawler» и «Real-Time поиск». Основная разработка была сделана калифорнийским отделением Яндекса — Yandex Labs в сотрудничестве с программистами московского офиса.

Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией.

Веб — это не набор отдельных страниц, которые можно рассматривать независимо. Страницы сильно связаны друг с другом, данные о ссылках очень интенсивно используются в ранжировании и в отборе из всего бесконечного интернета страниц, интересных человеку.

Люди обычно попадают на новые урлы через первые страницы любимых сайтов или по ссылкам с других новых сообщений. Поисковый робот должен находить эти же ссылки, часто освежая старые страницы, и ходить по ссылкам из новых уже скачанных документов. Именно поэтому для получения качественных свежих данных робот просто обязан работать не только с новыми документами, а со всем вебом, зная его структуру.

Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.

С помощью Orange мы достигли значительного улучшения свежести базы. В будущем мы сделаем его еще более агрессивным: Orange будет использовать все доступные источники информации об изменениях в интернете и реагировать на эти изменения мгновенно.

Кластер Orange Crawler реализован как распределенная вычислительная система: на каждой машине одновременно выполняются сотни небольших задач, результаты их работы в виде маленьких асинхронных сообщений отправляются на другие машины. На всем кластере сегодня обрабатывается более 100 тысяч сообщений в секунду. Подобная архитектура позволяет исключить задержки при обработке Real-Time информации, очень надежна и дает неограниченные возможности к масштабированию кластера.

Свежесть — еще одна составляющая в поиске, где простой эффект достигается сложными средствами. Хорошо, когда смотрящий в зеркало видит не особенности зеркала, а только то, что в нем отражается.

Федор Романенко и Екатерина Вебер, операторы сетевой соковыжималки

34 комментария
Подписаться на комментарии к посту
Владимир Берая
9 июля 2010, 12:12
Все-таки пока не уловил серьезного отличия от быстроробота, но время покажет. Т.Е. робот будет куда выдачу выкладывать? в основной индекс?
это как бы ппб, только для всех сайтов, очень интересно!
и на чём можно проверить такое быстродействие?
Скажите пожалуйста, тот факт, что сейчас в выдаче по запросам [orange] и [яндекс orange] нет свежих публикаций, вроде этого сообщения в блоге, говорит о том, что данные публикации уже слишком старые для попадания в оранжевый поиск? ;)
Да, поиск "Яндекс всегда хотел быть зеркалом интернета" не выдаёт эту страницу, что-то на секунды-минуты не похоже, надо будет ещё завтра проверить.
Находит это предложение, если набрать в кавычках, только адрес другой: http://yandexcom.livejournal.com/44203.html
Пишет: 1 час назад
http://habrahabr.ru/blogs/yandex/98682/

в каментариях прекрасное, со скриншотами
))
А по [яндекс orange] таки появилось real-time подмешивание.
"Лучше поздно, чем еще позже!" /Макс Фрай/
:)
Ну, с другой стороны, сегодня первый день, день релиза. Дать роботам чуть времени разогнаться, глядишь, и станут они быстрее конкурентов работать.
Дак вот в том-то и вопрос (по крайней мере у меня) - ведь можно было дать времени столько, сколько нужно, а потмо уже выкатывать пресс-релиз?

Одно дело, разработать технологию и реализовать её.  Но совсем другое дело - выкатить технологию в жизнь.
А квартальный план? А график релизов? А график отпусков, наконец? :)
эт я без понятия.  если график релизов в Яндексе и есть - он наверняка защищен NDA ;)))

Но судя по тому, как они выпускают приложения для мобильных платформ, и обновления Я.ру - график или очень гибкий или его совсем нет, а для премий итд, используется какие-то другие метрики (что, кстати, может быть даже и правильно :)

использует ли робот данные sitemap или приоритет на twitter и иже с ним?
 есть ли механизм как ускорить индесацию своего контента? по аналогии с фидами для быстророботов

Набрал в яндексе
легко ли быть зеркалом?
нету совпадений

набрал Orange Crawler
тоже нету совпадений

набрал в Google сразу все нашел .
Orange от Яндекса
набрал в яндексе (уже давно ходят слухи и так далее)
в яндекс в топ10 ни одного ответа

в Google в топ10 = 5 сайтов отвечают запросу
А откуда Яндексу взять-то такие быстрые результаты, как у Гугла. Вроде анонсов о том, что были заключены соглашения с Твиттером и прочими, не появлялось. Поэтому и не дубет реального поиска, откуда ж ему взяться.

К тому же, Федор ничего не пишет о том, как пользователю будут показаны эти результаты - примешаны к обычной выдаче или еще как?  А выдача по российскому Google пусть с кнопочкой "прямо сейчас", но показывает действительно свежие результаты.
Так ППБ же, там вон уже испокон веков быстрые результаты по твиттеру.
А кластер этот на hadoop :) Яндекс.. такой яндекс..
Эээ. Не ищет нифига. Вон на хабре уже два поста. Google показал в поиске, а Яндекс нет.
Да, Гугл с этой точки зрения будет шустрее.
А почему поисковики не делают api,к примеру сайт обновился и автоматически посылает яндексу об этом информацию?тогда это будет реалтайм
http://ping.blogs.yandex.ru/RPC2 (для WP и аналогов)
И Яндекс задохнет от спам запросов с каждого говносайта с ворованой новостью
Слабенько с быстрым поиском, однако
http://yandex.ru/yandsearch?text=Orange+Яндекс+&lr=213
***** последнее время вы,а не зеркало
Яндекс сделал ещё один шаг в погоне за Google! Ура! Это успех!

Предлагаю принимать ставки на тему: «Когда в выдаче Яндекса появится боковое меню?»
:-D
К вопросу о "зеркале": я сделал сайт с грамотными текстами: нанял профессионала (врача), в результате чего у меня получился единственный грамотный сайт в Рунете по этой тематике. Уже прошёл почти год, а по соответствующим запросам Яндекс показывает не мой сайт, а другие -- безграмотные и дилетантские. Причём, даже не заходя по ссылкам в результате поиска, можно видеть цитаты из сайтов, где даются реально опасные для здоровья советы. И совершенно не понятно, чем, кроме возраста, эти сайты "лучше" моего.
Что делать?
любая информация выдается с учетом поискового запроса. какая ваша позиция в этом... какие действия вы для этого предпринемали, что бы вас выдовало.. в выдаче.. что вы сделали для сайта, это прекрасно. и очень полездно. но не забывайте, что тема конкурентна. и вы не один в рунете развиваетесь, а значит и борьба за топ, тоже происходит.
Очень полезное нововведение, скорость индексации новых статей была для меня единственным минусом Яндекса до сих пор, очень рад что взялись исправить это, желаю успеха от души
Федор спасибо за хоть какое то разъяснение. но появляются вопросы, такого рода взаимодействие  Real-Time с Orange Crawler понятно.. но влияние на новый документ в поисковой выдаче, происходит? и если просходит, то в рамках данного алгорифма, или же ..... ? 
   Приятное соотношение: дали информацию  и себя похвалили. "Поставить на вид" - всем остальным службам.  Пусть копируют структур. Успехов.
Фёдор и Екатерина, не удержался от злободневного вопроса: каким образом пользователю воспользоваться преимуществами нового поисковика (как, собственно, и другими новшествами), если нет подписки на поисковые запросы по ключевым словам/словосочетаниям (только на новости - и то не через RSS и на блоги, что критично мало!)? Есть ли в планах ВОЗОБНОВЛЕНИЕ такой возможности!? - это бы всячески популизировало достижения Яндекса в поисковых технологиях!
Если такое не планируется, то почему? ..можно дать ссылку, где о причинах и планах по этой теме написано - самостоятельно внятного объяснения этому не нашёл!
If you can't make it good, at least make it look good.