Клуб о поиске Яндекса

«Обнинск» — новое ранжирование для гео-независимых запросов в России

webmaster
13 сентября 2010, 17:17
Поисковая программа «Обнинск» вышла из стадии бета-тестирования, новый алгоритм обрабатывает гео-независимые запросы на yandex.ru.

Над «Обнинском» мы работали особенно тщательно, потому что новая программа улучшает ранжирование по гео-независимым запросам, а таких в потоке до 70 процентов.

Для тех, кому интересна внутренняя кухня: сложность формулы ранжирования выросла почти в два с половиной раза, и теперь объем формулы составляет 280 Мбайт (совсем недавно, в июле 2010 года, Илья Сегалович на конференции SIGIR рассказывал, что формула ранжирования, занимавшая в 2006 году 0,02 килобайта, разрослась до ~120 Мбайт, а теперь ему снова придется перерисовывать слайд).

Первыми пользователями нового ранжирования стали украинский (август) и белорусский (сентябрь) поиски. Российской же версии (которая, собственно, и есть «Обнинск») потребовалась дополнительная оптимизация: поскольку пользователи задают Яндексу порядка ста миллионов запросов в день, мы были обязаны обеспечить новому алгоритму максимальную производительность (даже если он заметно сложнее предыдущего).

Спасибо всем, кто принял участие в бета-тестировании.

Ден Расковалов и команда поиска отправляются в следующий город
22 комментария
Подписаться на комментарии к посту
Дело хорошее, главное что бы нормальные сайты по ошибке не вылетели.
"корм для собак" какбэ намекает
И какова производительность, этих двухсот восьмидесяти мегабайт?

Можно более подробно об улучшении ранжирования?
теперь типа если формула  весит меньше пол гига даже не расчитывайте на качество;-)
Посмотрим, посмотрим
Может здесь покомментируете сабж:
http://webmaster.ya.ru/replies.xml?parent_id=8259&item_no=8239&with_parent=1#reply-webmaster-8259
?
И т.д. и т.п.
280 мегабайт VS 8 байтов (SAPE)
это точно ))

«Обнинск» — новое ранжирование для гео-независимых запросов в России.


Теперь объем формулы составляет 280 Мбайт.


главное чтоб толк был...

Уважаемые сотрудники Яндекса, размер формулы не говорит ровно ни о чем. Почему бы вам не прислушаться к мнениям оптимизаторов и рассматривать нас не как врагов, а как людей, разбирающихся в поисковых технологиях? Мы все понимаем, вам хочется выделится, показать крутизну, но вы же это и так показали. Вы первые в Рунете. К чему сейчас 100500 террабайтные формулы? Чем был плох Снежинск? Он давал довольно корректную выдачу, можно было его доработать, а не рубить с плеча, фильтры подкрутить, добавить новые. Зачем, спрашивается, все переворачивать вверх тормашками? Кидаться из крайности в крайность? Обнинс неадекватен, с привязкой к геозависимость черт знает что происходит. Эх, надоело уже распинаться. Поймите, мы вам не враги, от нас можно получить много ценной компетентной информации, а вы все головой об стену.
+100 (и даже 1000) про доработку Снежинска и кидания из крайности в крайность - нельзя же так все время переворачивать выдачу кардинально.
Яндекс безусловно хороший поисковик и его доля на одноименном рынке также безусловное тому подтверждение, ибо и человеческое отношение пристутствует - все таки саппорт отвечает очень быстро, и сервисы развиваются да и сам я на стартпейдже с ним со времен рекламы по ТВ с рубанками и фразой "найдется все".
Но вот эти постоянные смены алгоритмов они просто убивают наповал и после очередного апдейта выдачи хочешь заварить зеленый чай а сам в трансе сыплешь в заварочный чайник кофе...
А наповал потому что за год до этого прибираешься в гараже и находишь пачку подписки (ну например, только как пример) журнала о кролиководстве с 80 по 95 год - ну думаешь чем в сауне все это сгорит за пару растопок печки, заведу ка микронишевик - пусть люди читают на здоровье, а тебе доходы от контекста бакс-другой в день... Проверяешь - уникальность 100% - заводишь сайт - разведение кроликов - хост покупаешь, ставишь проверенный wp не мудрствуя лукаво, благо бесплатный, удобный оформляешь по симпатиШШней, купишь шаблон чтобы в зубах внешний вид не навязал у посетителей, и начинаешь добавлять в день по статье-другой , когда время есть, скан само собой очищаешь от мусора - прогоняешь через word чтобы ошибок не было, потом еще через Windowslivewriter когда публикуешь подправишь ,поставишь как положено 1 разочек

5-6

, пару тегов из текста для внутренней перелинковки, теги для записи только те что есть в тексте используешь, ну через месяцок глядишь и первые 50 уников  есть, дальше глядишь и 300, тут и контекст подвесишь уже , глядишь и доход небольшой пошел.. Упс глядишь и позиции маленько в рост пошли. Ну и через год 25-35 позиция по нужному нечастому запросу - тема то неденежная, узкая, конкуренции по запросу мало - не кондиционеры же в москве то в самом деле (еще раз повторюсь кролики только как пример, тут могут быть и страусы и пчелы и даже разведение мухи цеце - тема то вечная - клетки, корм, радость от размножения питомцев на убой и т.п. Ну новые статьи добавляешь, уникальные само собой про например породы кроликов каких нибудь великанов). Зная что у молодого сайта, самое больное место это низкая скорость индексации каждую статейку в 2-3 соц закладочки кинешь чтоб побыстрей заявить о себе и чтобы контент не воровали, ну еще отсрочку RSS выставишь часа на 3 чтобы хотя бы от школьников с feed парсерами уберечь.Про пессимизацию из-за соцзакладок не веришь - так как твердо веришь словам ребят из Яндекса что внешние факторы не влияют.. Ну и живешь себе - так как сапу не любишь и даже не зареган в ней, каталогоз*с*рательством не умеешь и не любишь заниматься - получаешь свои 10-20 ТИц от почтенных кролиководов и особо не переживаешь ни за что имея 1000 посетителей от Яндекса и 200-300 от всех Google ru, com. ua и т.п. Само собой статьи тоже не покупаешь и не продаешь с ggl и т.п.  Получается просто сайт - приносящий небольшой доход и ни на что особенно не претендующий - статья в среднем 10 тысяч знаков, облагов тегов нет, в роботсе и настройках все мало мальски дублирующее запрещено потому что не для sape работаешь и за  количеством страниц не гонишься.Дело увлекает,  сайт то ведь приносит нормальный доход, уже и сам статьи писать не ленишься.


Так и живешь себе  у Google +- 5-10 позиций у Яндекса тоже +- 5-10.. Бежит время - всякие флориды-анадыри тебя мало волнуют (ничего не меняешь же - все как и было - знай публикуй изредка новости)- где то рост где то падение но все в пределах нормы - тех позиций которых сайт достиг "самоходом" тебе вполне хватает. А потом бряк - на тебе смена алгоритма на какой нибудь северный или не очень город (для меня алгоритм с названием очередного города был как город "Березов" каким оно был для Александра Данилыча Меньшикова куда его отправили в ссылку)и проверяешь и не можешь понять - 
1 ап - был в Яндекс 21 стал 52, google - 27, 
2 ап - был в Яндекс 52 стал 88, google - 29, 
2 ап - был в Яндекс 52 стал "ищи теперь трамвай в поле, над тамбуром горит полночная звезда", google - 26, 
Постетителей соответственно становится столько же сколько их можно наблюдать в том месте над которым горит вышеупомянутая полночная звезда,  и сидишь и думаешь - а что сделал то не так???, ведь "Чем отличается качественный от некачественного с точки зрения.." и "Лицензия на использование.." ты вроде выучил наизусть и полностью соблюдал, не одной неестественной ссылки нет, даже с других своих сайтов не ставил чтобы за сетку не приняли. Думаешь может site-auditor глючит - ан нет - нету "твово" сайта больше и близко и даже не только в сотне (зато на третьем месте в выдаче красуется сайт на домене третьего уровня на том же wp последняя запись в котором датируется апрелем 2009 а в шапке надпись что он переехал и туда куда он бедолага переехал его нет тоже близко к 200)

Тут вспоминаешь как смеялся над своей бывшей девушкой у которой сайт с личными стихами попал под АГС и долго ее убеждал когда-то что это не ты Наташа пишешь - это ты солнышко просто где то видела - и долго ей объясняешь чем отличается уникальный контент от неуникального и даже программу ей даешь чтобы стихи свои проверяла на уникальность...
В саппорт писать бесполезно - сайт то ведь индексируется - что толку попусту людей отвлекать на то чтобы тебе писать дураку "...развивайте, добавляйте..." руки опускаются - вот и остается 2 пути - нарушать "Лицензию на использование.." и закупать ссылок - но это того не стоит - не так много контекст приносит, или плодить новый ГС "сдавая" взлелеянный сайт под продажу этих же самых ссылок, ибо даже обижаться на Яндекс не за что - потому что понимаешь - Яндекс тебе ничего не должен...
Поэтому и говорю о том, что хотелось бы хоть какой то минимальной предсказуемости или стабильности от введения новых алгоритмов. Что хотят люди от поисковика? - релевантности и свежести информации если это новостной запрос - а раз так то стоит увеличить скорость индексирования  и отпадут многие головные проблемы вебмастеров и сотрудников поисковых систем - если сайт попадает в индекс в течении нескольких минут то как бы не пыжились сплоги - так быстро "попятить" статью они не успеют - cron таймер все равно выставят ну на час на 2 чтобы небыло бана от хостера (в большинстве своем они грузят здорово хостинг). Поэтому главная цель на мой взгляд конечно для Яндекса - это не изобретения многомегатонных алгоритмов а усовершенствование существующих для соблюдения какой то хотя бы стабильности и обязательно ускорение индексирования чтобы например форумы где на постоянной основе копипастят твою инфу (без злого умысла но и без ссылки на тебя)не оттесняли  тебя на 350 места и ты не выглядел в глазах ПС банальным ворьем. Прошу прощения за столь большой текст - не умею кратко выражаться..
Могли бы и опубликовать формулу, а не только ее размер. 
Зачем Вам формула? Что, не получается с ранжированием?
формула постоянно совершенствуется, так что в статичном варианте она вам не поможет
бгггг)))) Был-бы просто праздник какой-то :)
А тем временем Google вводит живой поиск... Ребята вы о чем? Какие еще 280 Мб? Вы еще размер вашей одежды напишите! :)
280 Мбайт а тольку мало, всякая срань вылазиет в топ.
Я из Обнинска, кто еще?:)
280 Мб - это с картинками и видео для внутреннего пользования :)
Хорошая новость, как столько запросов обрабатывается, понять невозможно.
Я знаю только одно, что паниковать по поводу "ОБНИНСКа" не нужно, это хитрость а не влияние на ранжирование. Хоть прошло и не много времени, а технологию раскусили. Кому интересно посмотреть по факту, можете заглянуть ко-мне, я там полностью расписал иследованое предположение. Я сомневаюсь что это не так!
Желающим поспорить по данному факту - добро пожаловать ко мне.
Формула 2006 была всего 20 байт? :-O