Блог Яндекса для вебмастеров

май 2008
"Магадан"
16 мая 2008, 13:51

"Магадан" окончательно поселился по адресу www.yandex.ru. Мы открываем серию коротких (а иногда длинных) постингов с рассказом о том, что было сделано за это время.

Начнем с рассказа про изменения в обработке русскоязычных текстов.
В новую поисковую программу добавлено множество улучшений, например:

  • немного умнее определяется, что такое слово -- например, "C++" и "Европа+" теперь ищутся как единое целое (по ним не находятся слова "C" и "Европа"),
  • в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL. Благодаря этому поиск понимает, что "mail" -- это "почта", а "bmw" -- это "бмв",
  • увеличена обучающая выборка для статистического морфологического анализатора, что повысило точность распознавания фамилий и географических названий.

Между прочим, 

Яндекс умеет искать тексты с дореволюционной орфографией. Скажем, по запросу [кафедра Ветхого завета] найдется "каѳедра Ветхаго Завѣта", и наоборот. Если необходимо найти только слова со старой орфографией, можно ограничить поиск точной формой, взяв слова в кавычки: ["Бѣлый, блѣдный, бѣдный бѣсъ"]. При этом поиск старается отличить такие слова от украинских. Например, по запросу [мiнiстр] найдется только украинское слово "мiнiстр" и не найдется русское "министр". В то же время, когда нужны старые русские слова с "i", например, по запросу [мiр], находится и русское слово "мир".

 

Александр Садовский, верил и верю  :)

41 комментарий
магадан,поисковая программа
Прюнинг
21 мая 2008, 20:14

Продолжаем рассказ о "Магадане". В новой программе улучшена скорость поиска по запросам, по которым  находится большое число документов. Для этого мы применили технику под названием "прюнинг". Время поиска сократилось за счет появления еще одной стадии поиска -- на ней отсекаются заведомо нерелевантные документы.

Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется.

По таким запросам как [новости] и [жж] время поиска было сокращено в десятки раз. При этом ускорение  поиска было достигнуто без всякого ухудшения его качества.

 


Андрей Гулин, ускоритель

 

Между прочим, 

Яндекс старается дать ответ на запрос, сократив время и усилия пользователей. Спрашиваете "погода"? Отвечаем: "Москва, +12 °C, дождь" (см. ответ в первой строке над результатами поиска), если вы живете не в Москве, погода будет показана для вашего города. Спрашиваете "Елена Колмановская"? Отвечаем: "Елена Колмановская — Яндекс, главный редактор". И ссылка на пресс-портрет, составленный по материалам СМИ. Мы называем такие подсказки "колдунщиками", потому что от них иногда создается впечатление, что поисковая система понимает всё, что вы хотели, и даже больше. :)
18 комментариев
магадан
Вирус подмены страниц
27 мая 2008, 20:33

В последнее время в Рунете появилось вредоносное программное обеспечение нового типа – программы, созданные для искажения страниц в браузере пользователя. Поскольку нас интересует поиск, мы рассмотрим деятельность этих программ в контексте поисковых систем.

В строгом понимании термина «вирус» эти программы вирусами не являются, однако механизм их работы очень похож на деятельность вирусов, поэтому условимся называть такое ПО «вирусом подмены страниц». При обращении пользователя, компьютер которого заражен таким вирусом, к поисковой системе вирус изменяет один из результатов поиска. Таким образом, пользователь переходит не на сайт, найденный поисковой системой, а на какой-то другой.

Эта проблема существует для всех популярных в Рунете поисковиков – для Яндекса, Google, Рамблера, MSN (Live). Кроме того, вирус может подменять не только страницы с результатами поиска, а вообще любые сайты.

Вирус подмены страниц может попасть на компьютер вместе с какой-нибудь программой, загруженной из интернета. Например, вместе с бесплатным ускорителем закачки файлов BitAccelerator, который предоставляется файлообменным сервисом Letitbit.net. Вместе с этой программой пользователь скачивает скрытую библиотеку. Эта библиотека остается на компьютере пользователя и при удалении BitAccelerator.

Чаще всего на зараженном компьютере вирус ведет себя одним из двух способов:

  • Вирус подменяет html-код страницы с результатами поиска, подставляя вместо одного из результатов ссылку и описание другого сайта. Дизайн и общий вид подмененной позиции похожи на обычные результаты поиска, но сам сайт к заданному запросу отношения не имеет. Например, по запросу [самолет] выводится порносайт, или по запросу [Яндекс] – сайт другой компании. Если задать тот же самый запрос еще раз, нерелевантный сайт исчезнет из результатов поиска.
  • Другой вариант появился позднее, возможно, вследствие того, что пользователи меньше кликали по нерелевантным ответам. По запросу пользователя страница выдачи не изменяется, но при переходе по одному из первых результатов поиска вирус переадресовывает пользователя на другой сайт.

Вирус подмены страниц используется для воровства и продажи трафика – с его помощью можно получить, по самым скромным оценкам, несколько сот тысяч переходов в день. Переходы пользователей продаются рекламодателям как контекстная реклама.

Схема работы мошенников выглядит следующим образом:

  • Рекламодатель заказывает рекламу сайта по определенным ключевым словам. Эти слова передаются в программу, работающую на удаленном сервере злоумышленников.
  • Когда пользователь заходит с зараженного компьютера на сайт какой-нибудь поисковой системы и вводит запрос в строке поиска, вирус активизируется и передает запрос на сервер мошенников. Если этот запрос содержится в программе, в ответ приходит адрес сайта, который подставляется в выдачу поисковика.
  • Пользователь переходит по ложной ссылке и уходит, решив, что поисковая система дала ему нерелевантный ответ. При этом вирус модифицирует HTTP-запрос таким образом, что в логи посещенного сайта записывается переход с рекламной сети мошенников – поэтому рекламодатель заплатит за этот переход.

В результате проигрывают все – кроме авторов вируса, конечно. Пользователь не находит нужную информацию. Рекламодатель платит за нецелевой трафик. Поисковая система теряет репутацию – обнаружив последствия работы вируса подмены, некоторые пользователи обвиняют поисковики в продаже мест на первых страницах выдачи.

До недавнего времени антивирусные компании классифицировали вирусы подмены страниц просто как рекламный софт – не особо полезный, но вроде бы и не вредный. В результате совместных с нами обсуждений и исследований большинство антивирусных компаний пришло к выводу, что такие программы представляют несомненную угрозу. Сейчас большинство производителей антивирусов перевели вирусы подмены страниц в класс вредоносного и опасного ПО. Антивирусы компаний Dr.Web, «Лаборатория Касперского», ESET (NOD32), Panda Security обнаруживают и автоматически удаляют все известные версии вируса подмены страниц.

Кроме того, можно избавиться от вируса при помощи утилиты Касперского или CureIt от "Доктора Веба". 

Мы рассчитываем на то, что вместе с антивирусными компаниями нам удастся остановить распространение вируса и появление его новых образцов.

Если вы подозреваете, что ваш компьютер заражен вирусом подмены страниц, пишите по адресу – safesearch@yandex-team.ru. Мы обязательно поможем.

Александр Садовский

37 комментариев
пролетарский гнев,безопасность,вирусы