Блог Яндекса для вебмастеров

Управление приватностью

27 июля 2011, 16:18

Предполагается, что вебмастер следит за всеми данными, размещенными на своем сайте – например, за тем, чтобы приватные данные были защищены паролем, или за тем, чтобы туда не попадала внутренняя информация о компании. Вся информация, которая размещена в интернете и никак не защищена, может попасть в поисковые системы. Для того, чтобы ограничить доступ к информации для поисковых систем, достаточно задать правила доступа в файле robots.txt протоколом REP.

Однако практика показала, что, несмотря на простоту способов защиты приватной информации, и то, что правила взаимодействия сайтов с поисковыми системами созданы еще в 1994 году, многие вебмастера совершают ошибки. Например, полагаясь на сложность адреса той или иной страницы, никак не защищают информацию на ней. В результате эта информация оказывается открытой и находится в различных поисковых системах, в том числе и в Яндексе.

Как показали события последних дней, это достаточно широко распространено. Поэтому мы посчитали необходимым тщательно рассмотреть ставшие известными за последнее время случаи доступности непубличной информации. Мы изучили ситуацию и выяснили, что адреса страниц с некоторых хостов стали известны Яндексу через установленную на сайтах Метрику. А поскольку в robots.txt этих сайтов запрета на индексацию страниц не содержалось, они стали находиться в Яндексе. Особо хотим отметить, что посещение пользователем страницы с помощью браузера с установленным Яндекс.Баром не приводило и не приводит к ее индексации.

Что такое Метрика? Это система, предназначенная для анализа трафика на сайте. В  соответствии с Пользовательским соглашением Метрики, «счетчик собирает анонимные данные о посещениях сайта и в автоматическом режиме передает их Яндексу для получения обобщённой статистической информации, доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу».

Мы не могли представить себе, что в функциональность инструмента для анализа сайта нужно добавлять средства управления доступом. Для этого существуют общепринятые инструменты. Однако миф о том, что для защиты приватной информации достаточно сложного адреса страницы, оказался таким распространенным среди вебмастеров, что мы решили добавить в Метрику возможность не передавать в поиск Яндекса адреса страниц, которые стали ей известны. Однако это не означает, что поисковая система никогда не узнает о той или иной странице. Существует огромное количество других путей, которыми страница может оказаться в поиске. Новая опция Метрики влияет только на непосредственную связь между Метрикой и поиском.

Эта опция появилась на сервисе, на страницах с выбором счетчика. Также вы можете добавить в код счетчика на вашем сайте параметр ut=noindex. В результате этого адреса страниц, полученные только через Метрику, не будут индексироваться поиском Яндекса.

Приватные страницы, не защищенные вебмастером, которые по тем или иным причинам оказались в поисковом индексе, можно удалить несколькими способами. Если вы – вебмастер или владелец сайта и видите в поисковой системе те страницы, которые, по вашему мнению, не должны там находиться, вам нужно либо закрыть их паролем, либо запретить индексацию страниц с помощью robots.txt или метатега noindex.
Процесс обновления данных в поиске Яндекса можно ускорить. Для этого воспользуйтесь инструментом для удаления адресов страниц в Яндекс.Вебмастере. Или вы можете обратиться в службу поддержки. После обработки заявки робот Яндекса переобойдет указанные адреса и удалит их или изменит содержимое, сниппет и сохраненную копию - в зависимости от действий вебмастера.

В настоящее время процесс синхронизации содержимого сайта и результатов поиска занимает несколько часов, но мы работаем над тем, чтобы значительно сократить это время.


Владимир Иванов, информационная безопасность Яндекса

66 комментариев
Подписаться на комментарии к посту

Мы не могли представить себе, что в функциональность инструмента для
анализа сайта нужно добавлять средства управления доступом. Для этого
существуют общепринятые инструменты.

Почитайте, пожалуйста, почему в некоторых случаях защита с помощью сложного URL является оптимальной, и прокомментируйте, в каких пунктах вы не согласны с изложенными соображениями: http://lists.ya.ru/replies.xml?item_no=1565.

Действительно ли вы считаете, что каждый, кто ставит Яндекс.Метрику на свой сайт, должен предусмотреть возможность индексации «Яндексом» всех урлов, отдающих 200? Насколько польза от агрессивного алгоритма индексации превышает вред от него, и превышает ли, с учётом последних событий?

что мешает закрыть такие страницы от индексации в robots.txt?

однотипность скрытых и открытых урлов.

Или все "закрытые" с точностью до символа прописывать в robots.txt ? ;)

вынести такие урлы на отдельный уровень

На сколько я знаю роутинг не так трудно сделать

meta name="robots"

А что на таких страницах делает метриковский скрипт? Его ведь можно туда просто не включать. Предусмотреть шаблон "для внутреннего пользования" без метрики и без счетчиков, это было-бы очень логично мне кажется.

Именно! Так и должно делаться.

Кто сказал, что считать пользователей и анализировать их активность на этих страницах не интересно?

А что мешает передавать номер не с помощью Get, а с помощью Post? Как вы указали в своем примере,  человек - может не владеть никакими знаниями о компьютерах, поэтому ему все равно как технически будет получена информация. Можно вообще без всяких урлов, динамически генирировать информацию.

А фраза "защита с помощью урла" - бредова сама по себе.

А вам не кажется странным: указывать в открытом доступе (robots.txt) информацию к закрытой информации? Любой из конкурентов опять же может анализировать файл роботс. Та же самая ситуация и с поведенческими: не кажется, что конкуренты элементарно его могут накрутить.
Уважаемый Яндекс, что-то ты совсем с ума сходишь и сильно подвергаешь безопасности сайты, находящиеся в выдаче...

Я твердо убежден, что если есть необходимость предоставить доступ к закрытой информации через Web-сайт, такую информацию нужно защитить какой-либо аутентификацией. "Секретность" URL'а формой аутентификации не является.

Иногда является. Например в RSS это вообще единственный реальный способ выдать «приватный» фид.

RSS вообще не предназначен для выдачи приватных данных. Это всё равно что вещать по УКВ некие секретные данные. Главное, никому частоту не говорить, ага.

Угу, а HTML «не предназначен» для создания инетрактивных приложений. Вопрос не в предназначении, а в использовании.

Некоторые ухитряются ключ от квартиры под ковриком перед дверью хранить, так что же теперь, коврик предназначен для защиты имущества?

«А некоторые и мышей едят» © Только к теме топика это не относится.

"буду извращаться как хочу, а вы расхлёбывайте, потому как Я не могу быть виноват по-определению" - очень даже относится.

Ага, а что ж ты свои фиды прячешь под гуглоридером с авторизацией? =)

Фиды уметь надо использовать, можно от "специалистов" любого отдела полицаев любую инфу спрятать, даже не пряча её.

Конкретные адреса страниц и их содержимое представляют из себя "анонимные данные о посещениях сайта ... для получения обобщённой статистической информации"?

Выкладываются конкретные адреса страниц, с конкретным содержимым, которые становятся доступны любому пользователю поисковика.

Причём индексируется и публикуется для всех информация, которую, например, можно было наблюдать только в течении 10 минут после создания страницы.

И да, конечно, потом уже из этого можно собрать обощённую статистическую информацию.

Анонимность ни в чём не нарушена.

Молодцы.

1. Не кажется ли вам, что передача ссылок Я.Метрикой поисковику для индексации идёт вразрез с пользовательским соглашением, где говорится только о сборе обобщённой информации для статистики?

 

2. Не кажется ли вам, что в данном случае нужно использовать подход opt-in, т.е. по умолчанию Я.Метрика не должна ничего передавать поисковику, а сайтовладельцы должны явно задавать параметр, чтобы Я.Метрика это всё-таки делала?

Вы как-то массово не понимаете разницу между обобщением и содержанием того, что обобщают. Можно обобщить приватную информацию и при этом не знать (не запоминать) где мы ее нашли, это и есть анонимность.

"«анонимным» считается любое
послание, не подписанное или подписанное не своим именем. Главным
критерием является невозможность точно установить личность писавшего". При этом даже в определении слова нет отсылки к тому, что данные в анонимке не должны содержать никакой личной информации.

Что-то я не вижу прямой связи между тем, что вы говорите, и тем, о чём спрашиваю я.

 

В Пользовательском соглашении написано про обобщённую информацию - это понятно. Но там не написано, что поисковику Яндекса будут передаваться ссылки на страницы для индексации. Причём, заметим, для моментальной индексации (судя по времени жизни многих из этих страниц).

 

Вы попробуйте написать что-то такое в Пользовательском соглашении Яндекс.Почты, а потом из email тоже передавать ссылки поисковику. Как вы думаете, сколько человек поймёт, что из фразы про сбор обобщённой информации следует, что поисковик будет шпионить за ссылками?

Ну с тем, что нигде явно не сказано про индексацию, это я согласен (поэтому они и сделали эту штуку опциональной, для полного соответствия).

С другой стороны, всплывает связанная тема с тем, что доступно по ссылке. Если он ее найдет в e-mail'e это плохо, а если в жж - то хорошо, а как же контроль содержимого на той стороне?

Ну и в целом, нарушение тайны переписки - уг. дело, а в данном случае вроде, как нет никаого разглашения?

К сожалению, они как раз не сделали индексацию опциональной. Они сделали опциональной НЕиндексацию. Потому что по умолчанию она производится, а чтобы этого не делалось, вебмастеру нужно совершать дополнительные телодвижения.

 

Контроль содержимого на стороне веб-сайтов, понятно, никто не отменяет. Должен быть.

Ну а с другой стороны, они предоставляют бесплатный сервис и имхо имеют права на легкие поблажки в свой адрес :)

Добавьте визг в панели вебмастера или метрике, точнее отказывайтесь индексировать сайт, если на нем нет robots.txt

А если он мне не нужен в принципе? Это типа бум индексировать только то, что явно разрешено?

Если у сайта нет robots.txt  - это явно что-то нездоровое.

Да с чего такие мысли? Если это публичная страничка обо мне, я тоже должен туда robots.txt запихивать?

А почему нет. hostname' ради

Или пока доведете страничку до идеала -  блочите робота. Как доделали разрешили.

Ок, соглашусь про страничку я не продумал.

Но предупреждение красным цветом:"Ахтунг мы найдем все же!"

Ну тут скорее поможет стикер на монитор с сообщение: "Ахтунг без robots.txt нас все видят", т.к. сообщение поможет только если пользуешь вебмастера, но это никак не спасет всех остальных. Правда это больше вопрос к грамотности "специалистов".

придумал пишем своего бота. Он бегает по интернетам, если нет роботs.txt

добавляет базу. Пробегаемся по сайта и пишем им. Народ у вас нет роботс TXT галактика в опасности, мы вам починим за N-ка. И по новостям долбят. Профит

У меня другое в мыслях возникло - поисковик, который ищет то, что не ищут другие... :)

А на соседней странице: "1000 ссылок на сайты, где может быть любопытная информация, спешите - сегодня всего за 5 баксов!" И перелинковать страницы, чтобы посетители первой видели и вторую )))

При сливании адресов в индексатор убирайте из них специальные метки источников переходов: utm_source, _openstat. Вы нарушаете работу интернет-статистик, в том числе самой Метрики. Метка служит для обозначения источника перехода. Вы добавили в поисковую выдачу ссылки, например, с utm_source=direct, статистика считает, что был переход из Директа, но реально был переход из результатов поиска.

 

http://yandex.ru/yandsearch?text=inurl:utm_source

 

walery-studennikov
27 июля 2011, 19:56

Короче, во всей этой истории с утечками виноват, в итоге, по моему мнению, таки Яндекс (и вообще поисковики вцелом), который
индексирует все URL, которые попали в Яндекс.Метрику или Яндекс.Бар.

Получается что модель вся безопасности, основанная на уникальных URL
(которые случайно генеряться и которые типа нельзя угадать), с нашими
любимыми поисковиками уязвима. Получается, что на такие URL надо в
обязательном порядке вводить временные лимиты / ограничения по IP.

Таким макаром полрунета уязвимы и под колпаком :(

Просто в такие страницы не надо включать скрипт метрики. Оно и понятно - их посещаемость вам зачем анализировать то?

А вы на каждую страничку вешаете метрику отдельно?

У меня она прозрачно в футере, а футер общий ВООБЩЕ для всех )

ну дык фильтруй типа "если не(закрытые урлы) эхо скрипт". Ну или наоборот, если публичные эхо, иначе ничего. Делов-то, одна строчка.

Я вас удивлю - у меня просто два футера для внутреннего и внешнего пользования так сказать :) У страниц "для внутреннего пользования" нет блока с кодом счетчиков и метрики.

Ответ на вопрос "зачем?" отнюдь не так однозначен как Вам кажется.

В конце концов в закрытой области сайта продолжается та же работа, что и в открытой: торговля (товарами, услугами, идеями)

Расслабься. Яндекс пытается узнать о тебе всё, что уже давно знает Google. Только методы дурацкие, вот и всё.

Модель безопасности, основанная на уникальных URL, схожа с закрыванием двери в квартиру с помощью вервки и пары сложных узлов, и надеждой, что никто не догадется как их развязывать.

...все божья роса.

Теперь Метрику будут ставить меньше.

Вы меня удивляете! WEB-мастеру до этого дела нет! Эти вопросы в ведении отдела (или специалиста) в сфере защиты информации. В крайнем случае сисадмина, но уж никак не WEB-мастера! Да и robot.txt здесь не главное (а самый даже последний момент). Закрывать папки с секретной информацией надо (а лучше вовсе не держать их в сети общего доступа)! Файлы шифровать. В базах данных отделять открытую информацию от закрытой. И вообще, какого дьявола собирать персональную информацию там, где в ней нет потребности. И протоколы надо использовать при доступе к закрытой информации другие. И еще много чего надо. Есть открытые учебники для чайников в сфере защиты информации - неплохо бы почитать некоторым.

Какой смысл закрывать в robot.txt какуюто папку для индексирования, если любой мало-мальски смышленый хакер может пройтись по всем открытым папкам сервера?

Не хотите деанонимизации в сети - не пользуйтесь ей. [:]|||||||||[:]

Больше - смышлёный хакер БУДЕТ в robots.txt лезть чтобы изучит то, что не стоит изучать поисковикам....

Ну в robot.txt запрещаются не только и не столько куда лезть не надо, сколько то, что не подлежит индексированию, не содержащее информацию ценность для выдачи поисковыми системами. Но и не содержащие закрытых данных. Например я могу закрыть от индексирования документы предназначенные для скачивания, но выложить их краткое описание со сылками для скачивания же. Попытка же использования robot.txt для сокрытия закрытых данных может привести к неприятным последствиям прсто потому, что создает ЛОЖНОЕ впечатление защищености таковых.

Комментарий удалён

яндекс найдет всех)

Вы путаете предназначение инструмента, как и автор обсуждаемой статьи их непонятно зачем сюда приплёл. В robots.txt закрываются страницы не с приватной информацией, а технически нежелательные для посещения поисковиками, как-то тяжёлые при генерации, содержащие уйму дублирующегося контента и т.п., которые не дадут никакой пользы от индексации, а вред сайту нанесут. Приватная же информация должна предоставляться под дайджестом или под сеансом, желательно через https, благо сие удовольствие недорого по нынешним временам.

Хотя в контексте статьи понятно, обсуждалась не сама приватность, а как исключить страницы из индекса.

 

Однако практика показала, что, несмотря на простоту способов защиты приватной информации
Ага, практика показала, что HTTPS нифига не секьюрно для Яндекса, ага. Вырубайте эту гадость, очень всем на мозги давит.(-1)

Оперативно пошли на встречу

Что примечательно - на 25% скомпрометированных сайтов не стоит яндекс.метрика.

Если урлы только через нее сливались, Типа быстро поубирали ее? :)

Думаю, что пользователи с этим согласны!

Ну теперь хоть правильно замыслили,

жаль что нужно менять код счетчика.

Лично мне частично помог тег canonical

Но стоит отметить, что отсутствие в выдаче не означает отсутствие в индексе, так что приватные данные придется все равно защищать дедовским способом, ЛОГИН-ПАРОЛЬ

Вопрос на засыпку:

Как удалить из индекса ссылки типа:

http://www.petsgroomer.ru/sustribe/?id=96d6867dc9c8ac0

http://www.petsgroomer.ru/sustribe/?id=06867d96dc9c8ac

http://www.petsgroomer.ru/sustribe/?id=67d96dc9c0688ac

http://www.petsgroomer.ru/sustribe/ -  реальная страница, и вышеперечисленные ссылки отвечают 200

rel=canonical указан,

счетчик исправлен, больше не передаст

но я так понимаю, сами по себе они не исчезнут из индекса никогда...

Что делать?

:-(

Строка в robots.txt

Disallo:/sustribe/?id=

Яндекс перечитывает robots.txt примерно раз в сутки, где почаще, где пореже.

Как быстро это отразится на индексе, не скажу, не замерял

"Disallow" разумеется

Бред

sustribe?id=
sustribe&id=
sustribe?td=&id=
Вариантов нет.
Написал Платону, удалили быстренько....

Бред, не бред, я предложил лишь направление.

Если на сайте ссылки генерируются нерегулярно и некому заняться отладкой - это проблемы владельца сайта, а не мои. ;-)

Это правда, спасибо!

Всем здравствуйте! Кто-нибудь может подсказать: на сегодняшний день, если в robots страница закрыта от индексации, а в метрики запрет на ее индексацию не стоит чему будет отдаваться приоритет? И попадет ли страница в индекс.

Если закрыт в robots.txt, то не будет индексироваться.