Блог Яндекса для вебмастеров

сентябрь 2009
Арзамас 1.5 -- тестируйте новую общую формулу
23 сентября 2009, 21:45

На buki.yandex.ru выложена обновленная версия поисковой программы "Арзамас", в которой улучшена общая формула ранжирования. Она определяет порядок результатов поиска по гео-независимым запросам и запросам из городов, где нет локализованного ранжирования.

Как определяется, какая формула сработает по запросу?

Мы нарисовали схему, надеемся, она разъясняет этот вопрос и понравится вам.



Что такое гео-зависимость запроса?

С помощью Яндекса пользователи не только находят информацию по учебе или работе, но и решают множество практических задач: их интересуют услуги ([ремонт холодильников], [химчистка]), местные организации ([администрация], [гибдд]), развлечения ([рестораны], [ночные клубы], [афиша]), заказ и покупка многих товаров повседневного спроса ([пицца], [купить мобильный], [доставка суши]). Задавая такие запросы, люди хотят найти соответствующие объекты поближе к дому, в своем регионе – так, чтобы ими удобно было воспользоваться. Эти запросы мы называем гео-зависимыми.

Иногда пользователи явно указывают регион в запросе, например, [ружье на крупного зверя Тамбов], иногда используют галочку "в Тамбове" или аналогичную, но чаще пишут просто [аптеки]. На основе статистики мы сделали классификатор, который определяет, является ли запрос гео-зависимым. Помимо употребления слов запроса с названиями различных регионов мы смотрим, упоминается ли в запросе какой-либо товар (зачастую, но не всегда, товар хотят купить в местных магазинах) или, наоборот, пользователь хочет что-нибудь скачать, посмотреть или поиграть в он-лайн игру, для чего регион не имеет значения.
Наш классификатор автоматический и, как любой другой, может ошибаться, но мы постоянно повышаем его качество и следим за точностью классификации.

На buki справа от результатов поиска размещена форма для обратной связи и мы ждем ваших отзывов, которые помогут сделать поиск для пользователей лучше.


Иван Наймушин и команда поиска

52 комментария
Арзамас,локальность
Четыре месяца наблюдения за вирусами
24 сентября 2009, 16:46

"Есть такое твердое правило <…> Встал поутру, умылся, привел себя в порядок — и сразу же приведи в порядок свою планету. Непременно надо каждый день выпалывать баобабы, как только их уже можно отличить от розовых кустов: молодые ростки у них почти одинаковые. Это очень скучная работа, но совсем не трудная."

Антуан де Сент-Экзюпери

Четыре месяца назад мы начали предупреждать пользователей Яндекса о потенциально опасных сайтах, а владельцам предоставили возможность получать оповещения, если на их сайтах обнаруживается вредоносный код. Ежедневно предупреждение о том, что "сайт может угрожать безопасности вашего компьютера" показывается около 4.5 млн. раз. Пользователи проявляют осторожность и избегают посещения помеченных сайтов. Только около 7% из них раскрывают и читают блок-предупреждение и всего 0.5% все же набираются смелости, чтобы перейти на опасный сайт на свой страх и риск. За эти 4 месяца работы наша база зараженных сайтов увеличилась почти в 2.5, а опасных страниц стало почти в 10 раз больше. Месяц назад мы значительно увеличили количество проверяемых страниц и заметно пополнили свою базу данных. Сейчас нам известно около 140 тыс. страниц на 30 тыс. веб-сайтов, которые могут предоставлять опасность для компьютеров пользователей при посещении.

Больше всего (более 31%) известных нам опасных сайтов располагается в зоне .com. Чуть меньше - в Рунете (30%). Также довольно часто нам приходится пополнять базу названиями китайских доменов из зоны .cn (чуть более 9%).

Больше, чем в половине случаев (почти 60%), инфицированные сайты содержат на своих страницах элементы <IFRAME>, которые вызывают обращение к серверу злоумышленников и загрузку специально подготовленного содержимого, заражающего компьютер пользователя через уязвимости в браузере или установленных программах. Часто такие <IFRAME> "спрятаны" при помощи короткого фрагмента кода на JavaScript, затрудняющего его обнаружение человеком и антивирусными программами. Примерно в 19% случаев страницы сайтов не содержат вредоносные <IFRAME> или код на JavaScript, который их добавляет, а ссылаются при помощи тега <SCRIPT> на сценарий JavaScript, который находится на специальном сайте злоумышленников.

*Классификация по версии компании Sophos. Различные версии вердиктов Iframe и Badsrc объединены.

До сих пор достаточно большое количество (9%) сайтов инфицировано вирусом Gumblar, эпидемия которого началась еще в мае. Около 1.5% сайтов подверглись изменениям, которые не все владельцы быстро обнаруживают, и перенаправляют посетителей на страницы, "предлагающие" фальшивые антивирусы.

В сутки мы находим в среднем более 7000 инфицированных сайтов. Мы рады видеть, что сайты не только заражаются, но и излечиваются. Огорчает только то, что ежедневно в среднем всего около 650 сайтов становятся безопасными, и наша база постоянно растет... Причина этому, видимо в том, что не все владельцы сайтов уделяют достаточно внимания вопросам безопасности и регулярному слежению за состоянием своих ресурсов. Так, например, более 20% зараженных сайтов остаются зараженными в течение месяца и более, при этом 8% всех инфицированных ресурсов остаются такими уже дольше, чем 3 месяца!

Надеемся, что владельцы будут уделять достаточно внимания безопасности своих сайтов и мониторингу их состояния. Яндекс помогает в этом, предоставляя специальный сервис Яндекс.Вебмастер, при помощи которого, в частности, можно своевременно получить оповещение, если сайт заразился, и запросить перепроверку содержимого, когда проблема исправлена. Сайт, остающийся инфицированным, не только создает пользователям проблемы, но и отталкивает многих посетителей. Со своей стороны, мы не остановимся на достигнутом и продолжим работать, чтобы пользователи могли найти нужную информацию в интернете быстро и без риска для своих компьютеров и данных. Мы будем улучшать систему, пополняя и оперативно проверяя базу данных опасных сайтов и совершенствуя алгоритмы определения вредоносного содержимого. Кроме того, мы продолжим публикацию информации, которая может быть полезна владельцам сайтов и пользователям интернета, в нашем блоге и разделе помощи.

 

Группа пролетарского гнева
15 комментариев
безопасность,вирусы
Тестируйте Арзамас 1.5 SP1 -- улучшенную региональную формулу
28 сентября 2009, 21:35

На buki.yandex.ru выложена обновленная версия поисковой программы Арзамас 1.5, в которой к новой общей формуле ранжирования добавлена улучшенная региональная.

Эта формула используется для ранжирования результатов по гео-зависимым запросам в Санкт-Петербурге, Екатеринбурге, Новосибирске, Красноярске, Омске, Ростове-на-Дону, Краснодаре, Нижнем Новгороде, Уфе, Перми, Казани, Самаре, Челябинске, Владивостоке, Кемерово, Иркутске, Барнауле и Воронеже.

В Москве выдача по гео-зависимым запросам пока прежняя.


Иван Наймушин и команда поиска

62 комментария
Арзамас,локальность