Антиспам

Ежедневно пользователи совершают более 50 миллионов переходов с поиска Яндекса на другие ресурсы. Неудивительно, что многие владельцы сайтов стараются привлечь аудиторию поисковой системы, чтобы увеличить свой доход. Правда, иногда они пытаются продвинуть свой сайт в результатах поиска обманным путем — с помощью поискового спама.
Что же такое спам? Это сайты, веб-страницы или элементы страниц, которые создают для обмана поисковых систем и манипулирования результатами поиска. Например, чтобы сайт появлялся в результатах поиска как можно чаще, на странице ресурса размещают мелкий, нечитаемый текст с популярными запросами. Посетители его не замечают, зато поисковая система видит и индексирует.
К распространенным видам спама можно отнести текстовый спам (невидимый, нечитаемый или бессмысленный текст), а также дорвеи (от англ. doorway — дверной проём, вход) — промежуточные странички, которые перенаправляют посетителей на целевой сайт, который нужно раскрутить.

Дорвей

Сначала спамеры создают промежуточную страницу, которую накачивают ключевыми словами — например, [скачать mp3]. Чтобы поисковой системе было сложнее обнаружить спам, ключевые слова чаще всего размещают внутри какого-либо текста. В зависимости от этих ключевых слов, дорвей будет появляться в результатах поиска в ответ на определенную группу запросов.
Когда ссылка на дорвей появляется в результатах поиска, пользователь переходит по ней, надеясь получить нужную ему информацию. С дорвея посетителя перенаправляют на целевой сайт — ради этого, собственно, и создавали дорвей. Иногда переход происходит автоматически, и тогда человек даже не замечает промежуточной странички. Иногда посетитель сам кликает по ссылке или кнопке «Войти». В итоге пользователь попадает на ресурс, где может не быть нужной информации или за нее придётся заплатить. С помощью дорвеев спамеры часто приводят пользователей поиска на мошеннические сайты, где можно заразить свой компьютер вирусом и, например, незаметно для себя передать личные данные (скажем, пароли) в чужие руки. Каждый месяц Яндекс обнаруживает десятки тысяч новых дорвеев и исключает их из результатов поиска.

Система поискового антиспама

Спам мешает и пользователю, и поисковой системе. Из-за спама в результаты поиска попадают страницы, где нет ответа на вопрос. В результате качество поиска снижается, пользователь тратит больше времени на поиск нужной информации, а поисковая система — ресурсы на индексирование и хранение бесполезных данных.
Чтобы такого не происходило, Яндекс старается не допускать попадания спама в результаты поиска. Для этого используется система поискового антиспама — набор алгоритмов, позволяющих отделить спам от качественных веб-страниц. Например, если владелец сайта искусственно повышает позиции своего ресурса с помощью ссылок, которые он за деньги размещает на других площадках, сработает алгоритм Минусинск, который автоматически понизит сайт в результатах поиска.
То же самое происходит и с некачественными сайтами. В некоторых случаях они могут быть совсем исключены из поисковой выдачи. Об этом говорится в Лицензии на использование поисковой системы Яндекса. Система антиспама проверяет все сайты, которые индексирует Яндекс. А уже проиндексированные страницы регулярно перепроверяет, чтобы убедиться, что на них не появился спам.

Обновление системы антиспама

Система поискового антиспама постоянно обновляется. В нее добавляются новые алгоритмы, которые создаются с помощью машинного обучения, в том числе технологии Матрикснет.
Матрикснет — это метод машинного обучения, разработанный Яндексом. С его помощью строится, например, формула ранжирования Яндекс.Поиска.
Разработка алгоритмов начинается с работы асессоров — специалистов по оценке качества поиска. Асессоры смотрят, насколько результаты поиска соответствуют запросу, находят среди найденных веб-страниц спам и классифицируют его.
Затем для каждого типа спама выделяются признаки, по которым можно отличить спам-страницу от качественного документа. Важно, чтобы признак был измеримым — например, таким признаком может быть процент содержания в документе какого-то определённого слова или сочетания слов.
Дальше для каждого типа спама составляется обучающая выборка. В неё входят две группы документов: страницы или сайты с данным видом спама и страницы или сайты, не содержащие спам. На обучающей выборке и выделенных признаках машина учится находить спам, вычисляя, при каком значении каждого из признаков можно отделить cпам от нормальных веб-страниц.
Например, машина берет признак «доля на странице слова „скачать”», определяет значение этого признака для всех страниц из выборки и рассчитывает, при каком значении признака можно провести границу между страницами из выборки, содержащими спам, и нормальными веб-страницами.
Поскольку выделять спам только на основании одного признака нельзя (может быть много ошибок), машина учится сразу на множестве признаков. В результате на основе набора признаков и их значений машина составляет алгоритм, позволяющий находить определённый вид спама. Перед внедрением алгоритм проверяется ещё на одной выборке документов.

Служба поддержки

К сожалению, бывает так, что система ошибается и определяет хорошую веб-страницу как спам. В таких случаях можно (и нужно) обращаться в службу поддержки. Сотрудники Яндекса проверят, действительно ли на сайте содержится спам. Если ресурс исчез из результатов поиска по ошибке, он появится уже через несколько дней. Но только в том случае, если алгоритм действительно ошибся. Иногда люди не хотят признавать себя спамерами — много жалоб приходит от владельцев сайтов, где на самом деле содержится спам.
Все случаи, когда сайты отнесли к категории спама по ошибке, Яндекс тщательно анализирует и, если нужно, корректирует работу алгоритма.

Владельцам сайтов

Исключая спам из результатов поиска, Яндекс прежде всего защищает интересы своих пользователей. Чтобы релевантно отвечать на запросы, Яндекс вынужден препятствовать любым попыткам манипулировать поисковой системой. Это касается не только спама, но и некоторых способов поисковой оптимизации, когда владельцы сайтов стараются искусственно повысить позицию своего ресурса в результатах поиска.
Яндекс старается не индексировать или не ранжировать высоко сайты, которые используют
Отношение Яндекса к поисковой оптимизации подробно описано в разделе "Принципы".
сомнительные приемы продвижения в поиске Яндекса. Чтобы веб-мастера могли избежать ошибок при оптимизации сайтов, на сервисе Яндекс.Вебмастер размещен примерный список таких приёмов. К сожалению, этот список не может быть исчерпывающим, поскольку невозможно предугадать, какие способы обмана поисковых систем появятся завтра.
С точки зрения Яндекса, единственно правильная стратегия продвижения ресурса в поисковой системе — это сделать свой сайт максимально удобным и содержательным. Сайты, где пользователи могут легко найти качественный ответ на свой вопрос, естественным образом занимают высокое место в результатах поиска.
Только таким образом можно добиться устойчивого, а не разового результата, как в случае со спамом. А как сделать свой сайт удобным, можно узнать в разделе «Советы вебмастеру».