Управление приватностью

Пост в архиве.

27 июля 2011, 16:18

Предполагается, что вебмастер следит за всеми данными, размещенными на своем сайте – например, за тем, чтобы приватные данные были защищены паролем, или за тем, чтобы туда не попадала внутренняя информация о компании. Вся информация, которая размещена в интернете и никак не защищена, может попасть в поисковые системы. Для того, чтобы ограничить доступ к информации для поисковых систем, достаточно задать правила доступа в файле robots.txt протоколом REP.

Однако практика показала, что, несмотря на простоту способов защиты приватной информации, и то, что правила взаимодействия сайтов с поисковыми системами созданы еще в 1994 году, многие вебмастера совершают ошибки. Например, полагаясь на сложность адреса той или иной страницы, никак не защищают информацию на ней. В результате эта информация оказывается открытой и находится в различных поисковых системах, в том числе и в Яндексе.

Как показали события последних дней, это достаточно широко распространено. Поэтому мы посчитали необходимым тщательно рассмотреть ставшие известными за последнее время случаи доступности непубличной информации. Мы изучили ситуацию и выяснили, что адреса страниц с некоторых хостов стали известны Яндексу через установленную на сайтах Метрику. А поскольку в robots.txt этих сайтов запрета на индексацию страниц не содержалось, они стали находиться в Яндексе. Особо хотим отметить, что посещение пользователем страницы с помощью браузера с установленным Яндекс.Баром не приводило и не приводит к ее индексации.

Что такое Метрика? Это система, предназначенная для анализа трафика на сайте. В соответствии с Пользовательским соглашением Метрики, «счетчик собирает анонимные данные о посещениях сайта и в автоматическом режиме передает их Яндексу для получения обобщённой статистической информации, доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу».

Мы не могли представить себе, что в функциональность инструмента для анализа сайта нужно добавлять средства управления доступом. Для этого существуют общепринятые инструменты. Однако миф о том, что для защиты приватной информации достаточно сложного адреса страницы, оказался таким распространенным среди вебмастеров, что мы решили добавить в Метрику возможность не передавать в поиск Яндекса адреса страниц, которые стали ей известны. Однако это не означает, что поисковая система никогда не узнает о той или иной странице. Существует огромное количество других путей, которыми страница может оказаться в поиске. Новая опция Метрики влияет только на непосредственную связь между Метрикой и поиском.

Эта опция появилась на сервисе, на страницах с выбором счетчика. Также вы можете добавить в код счетчика на вашем сайте параметр ut=noindex. В результате этого адреса страниц, полученные только через Метрику, не будут индексироваться поиском Яндекса.

Приватные страницы, не защищенные вебмастером, которые по тем или иным причинам оказались в поисковом индексе, можно удалить несколькими способами. Если вы – вебмастер или владелец сайта и видите в поисковой системе те страницы, которые, по вашему мнению, не должны там находиться, вам нужно либо закрыть их паролем, либо запретить индексацию страниц с помощью robots.txt или метатега noindex.
Процесс обновления данных в поиске Яндекса можно ускорить. Для этого воспользуйтесь инструментом для удаления адресов страниц в Яндекс.Вебмастере. Или вы можете обратиться в службу поддержки. После обработки заявки робот Яндекса переобойдет указанные адреса и удалит их или изменит содержимое, сниппет и сохраненную копию - в зависимости от действий вебмастера.

В настоящее время процесс синхронизации содержимого сайта и результатов поиска занимает несколько часов, но мы работаем над тем, чтобы значительно сократить это время.

Владимир Иванов, информационная безопасность Яндекса

66 комментариев

Авторизуйтесь, чтобы оставить комментарий

lists