Блог Яндекса для вебмастеров

"Магадан"

16 мая 2008, 13:51

"Магадан" окончательно поселился по адресу www.yandex.ru. Мы открываем серию коротких (а иногда длинных) постингов с рассказом о том, что было сделано за это время.

Начнем с рассказа про изменения в обработке русскоязычных текстов.
В новую поисковую программу добавлено множество улучшений, например:

  • немного умнее определяется, что такое слово -- например, "C++" и "Европа+" теперь ищутся как единое целое (по ним не находятся слова "C" и "Европа"),
  • в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL. Благодаря этому поиск понимает, что "mail" -- это "почта", а "bmw" -- это "бмв",
  • увеличена обучающая выборка для статистического морфологического анализатора, что повысило точность распознавания фамилий и географических названий.

Между прочим, 

Яндекс умеет искать тексты с дореволюционной орфографией. Скажем, по запросу [кафедра Ветхого завета] найдется "каѳедра Ветхаго Завѣта", и наоборот. Если необходимо найти только слова со старой орфографией, можно ограничить поиск точной формой, взяв слова в кавычки: ["Бѣлый, блѣдный, бѣдный бѣсъ"]. При этом поиск старается отличить такие слова от украинских. Например, по запросу [мiнiстр] найдется только украинское слово "мiнiстр" и не найдется русское "министр". В то же время, когда нужны старые русские слова с "i", например, по запросу [мiр], находится и русское слово "мир".

 

Александр Садовский, верил и верю  :)

41 комментарий
Спасибо Александр, берегите здоровье!
>в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL А можно узнать объем словаря перевода (хотя бы порядок: до 10 тысяч, 10-100, больше 100) и стандарт транслитерации?
Стандарт я думаю в Пунтосвитчере можно подсмотреть ;)
Дело в том, что существует несколько стандартов транслитерации русских букв. В основном, они различаются способом транслитерации букв Ъ, Ь, Ё, Э и некоторых других.
Я вкурсе
Можно я немного о другом? "Например, по запросу [ГОЭЛРО] Яндекс найдет страницы, где речь идет о Государственной комиссии по электрификации" При этом в выдаче слова "Государственная", "электрификация", "России" подсвечиваются, только если стоят в этой форме, а "комиссия" не подсвечивается вообще.
А можно я тоже немного о другом? ;) Раньше подсветка у Яндекса работала очень хорошо — подсвечивались только те словосочетания, которые соответствовали запросу, но в пылу борьбы с доморощеными анализаторами ваших алгоритмов эту функцию отбросили. Теперь подсветка стала практически бесполезной — страница пестрит кучей найденных слов и найти нужную фразу на каком-нибудь например форуме стало почти невозможно. Вернёте ли вы когда-нибудь нормальную подсветку?
Хм.. я использую текстовый поиск по странице, который присутствует почти в каждом браузере.
Ок, а зачем тогда вообще нужна подсветка? Приведу простой пример: Допустим я ищу информацию о типах MIME и меня интересует конкретно text/richtext. По запросу [content type text/richtext] нахожу страницу: http://hghltd.yandex.net/yandbtm?url=http%3A%2F%2Fwww.citforum.ru%2Finternet%2Fcommon%2Frfc1521.shtml&text=content%20type%20text%20plain Поможет ли мне в этом случае новая глупая подсветка? И примеров таких могу привести кучу. В больших документах и на страницах форумов подсветка стала бесполезна. И браузерный поиск в некоторых случаях может быть бессилен — он не знаком с морфологией и ищет тупо последовательность символов.
&text=content type text plain
Если вы ищите richtext, то зачем вводить plain text? Или я что-то не понял? p.s. Сам подсветкой не пользуюсь, в FireFox'е достаточно удобный поиск по странице по мере набора фразы.
Это я не тот линк вставил. Но смысл от этого не меняется. Если вы не пользуетесь подсветкой, то мне скорее всего не удастся убедить вас в том что она стала хуже :)
А, пардон — я подумал что речь идёт о подсветке в "сохранённой копии" — теперь понял что подсвечиваются эти слова только в сниппете.
Все это, конечно, хорошо, особенно по поводу транслита, но сама инфа - какое-то непонятное хождение вокруг да около: - "...немного умнее определяется" (ага, есть чуть-чуть...) - "...множество улучшений, например" (и всего три примера), - "...поиск старается отличить" (наверное, изо всех сил старается)... А шуму-то наделали с этим Магаданом. "Немного" и "старается" :)
На самом деле те самые изменения, которые заставляли толпы сеошнегов глотать в диких количествах валерьянку и спирное, скромно обходятся стороной разработчиками. Комечно чрезвычайно занимательно, что теперь в Яндексе можно найти "Си-шарп" и , но ведь совсем не это перетрясло топы по коммерческим запросам. :))
Согласен на все сто! Причем валерьянку и ей подобное пили мы - честные спецы по СЕО, а дорвейщики как рулили так и рулят.
Это только первый из серии постов "что сделано в Магадане". Наверно, ещё не пришло время писать о тех изменениях, что увеличивают потребление валерьянки :)
=) да шуму много - это точно. А поиск стал лучше - глупости - по запросу "болезни" 3 место http://www.yandex.ru/yandsearch?&rstr_manually=false&text=%D0%B1%D0%BE%D0%BB%D0%B5%D0%B7%D0%BD%D0%B8&msp=1 http://hghltd.yandex.net/yandbtm?url=http%3A%2F%2Fwww.google.ru%2F&text=%E1%EE%EB%E5%E7%ED%E8 "Google" - поисковая система Система поиска информации в сети интернет (включая русскоязычный интернет). Возможность поиска картинок и новостей; автоматический перевод англоязычных страниц. найден по ссылке: история болезни язвенная болезнь… www.google.ru · 7 КБ Сохраненная копия · Еще с сайта
Про сокращение МГУ вспомнили, а вот про СПб таки забыли... (
Объявили-таки :) Ждём продолжения постов.
А когда теперь Находку ждать?
Тот застой который имел место быть в серпе как то не вяжется с такими пустяковыми с точки зрения оптимизатора пустяковыми приходами магадана...
Дореволюционная орфография - это в 21-м веке исключительно актуально, есть че гордиться. Но все-таки непонятно, почему запросу Убѣжалъ, бѣдняга, въ лѣсъ Яndex считает наиболее соответствующим все-таки текст в пост-революционной орфографии ("УБЕЖАЛ БЕДНЯГА В ЛЕС"). мне кажется, что если кому-то придет в голову вводить запросы с ерами и ятями, то в поиске он ждет буквального соответствия. Замечательное достижение - поиск слов в дореволюционной орфографии - нивелируется результатами этого поиска. Видимо, из-за того, что Яндекс не придает большого значения точности соответствия, а ищет любые совпадения слов и выдает "наиболее авторитетные" сайты выше. Вот, например, что выдается по запросу (Убѣжалъ, бѣдняга, въ лѣсъ): Беднягу пронесло. ... А он от Боромира По горке, по дорожке, А может, по тропинке Скорее убежал (7-я позиция) и он убегал в лес, как ... Сейчас гроб заколотят, и бедняга успокоится в могиле навеки! (8-я позиция) Между тем, на 9-10-й позициях располагаются сайты, содержащие точное соответствие запросу - то есть, как раз искомое. Чисто логически трудно понять, зачем человеку, который ищет грамматический стишок в дореволюционной орфографии, тексты из пародии на Толкиена и сказки Андерсена.
Добавлю: "старое русское" слово мiр пишется как "мiръ". Но неважно - главное, что ни "мiръ", ни "мiр" Яndex'ом не находятся (если не считать всевозможных миров карт и детских миров). А вот за "фольцваген" и "мерседес бенс"- действительно ОГРОМНОЕ спасибо! Теперь не придется делать для сайтов входные страницы, заточенные под безграмотные запросы, которых, к сожалению, пока еще предостаточно.
Да, БОЛЬШОЕ, БОЛЬШОЕ спасибо за замену неграмотных слов не "Правильные" и слова типа "Аристон". А то пишешь тексты для сайта и пытаешься "впихнуть" все эти неграмотные словоформы в текст, надеясь Авось зайдут на сайт по своей-же глупости (и заходили ведь:)))). В этот момент чувствуешь себя круглым дураком, а посетителей - придурками неграмотными. Ну теперь все нормально, тексты будут грамотными, а русский язык чище!!!!!!!!!!!!!!!!!!!!!!!!!!
Почему то во всех "моих сайтах" в строке "страниц в индексе" стоит 0. А в некоторых в том числе 0 в "внешние ссылки". Хотя Яндекс продолжает искать, и страницы в индексе показывает..
Вот тут поддержу полностью! Уже неделю такое наблюдаю. Видимо это вызвано столь глобальными переменами и скоро должно пройти.
Выдачей доволен! Удачи.
А как скоро ждать очередного алгоритма?
В Магадане Яндекс меньше стал придавать значение "покупным" ссылкам, особенно купленных на биржах ссылок. ОДНАКО есть одно НО - как получить добротную обратную ссылку??? Я знаю только один "правильный путь" сделать уникальный и полезный контент/сервис" и ждать пока эти ссылки не появятся сами собой. И сколько ждать год, два, пять, жизнь???? Может кто поделится своими соображениями????
Придавать МЕНЬШЕ значения - не значит не предавать вообще. Пока Яндекс против "тупой" накачки. А платные ссылки все еще живы. Когда умрут - не известно, может через "год, два, пять, жизнь"
Дорогие яндексоиды, Вы бы вот чего сделали: огласили бы вы сроки своего сэндбокса для новых сайтов. Чесслово, заколебало гадать, сколько новый сайт проваляется в песке... Заметьте, никаких особых тонкостей алгоритма вы не раскроете этим заявлением. "Участие нового сайта в поиске может быть ограничено" (© Платон Щукин, гы) - это слишком размытый ответ, ни к чему не обязывающий. Все-таки фирма с таким оборотом должна изъясняться поконкретнее. да и вы ничего не потеряете, огласив сроки. Наоборот, так вы еще больше заинтересуете народ в покупке Директа. Ну сами подумайте, нафига новому сайту покупать ссылки, если он все равно в песке. Проще будет купить Директ, зная конкретно хотя бы примерные сроки
Полностью согласен.
да, колитесь, если песок в Яндексе или это все фантастика :)
А зачем сайт в "Сахару" отправлять...=) перепиши текста или удали говнотекст и всё будет хорошо.
Насчет песка полностью согласен! Я с одним проектом ждал 2 месяца выход в ТОП10.
За "C++" и "Европа+" и "mail" -- это "почта", а "bmw" -- это "бмв" - огромный респект - теперь действительно текста станут лучше.
Верните всю функциональность панели вебмастера!
Помоему для таких специфичных запросов стоит разделять поисковики. Для Древности. Для Укринцев. Для Покупки. Для Продажи. Для Дураков ( будет пользоваться спросом! ) А вообще позитивная новость.
Дааа, мне было бы стыдно писать такие глупости ...
Вот какая штука приключилась с сайтом. по всем позициям 18 из 18 сайт потерял встреднем -10 позиций. В данном сигменте поиска сайт занимает ведущее положение по колличеству информации и нужности пользователям. В топ вышли сайты из одной страницы (текст на белом фоне) Вопрос. Это система ратаций так работает или с алгоритмом что то?
Заметил разница в регистре в выдаче. учитывает большую и маленькую букву. Типа окна или Окна