Блог Яндекса для вебмастеров

Почему находится всё

26 июля 2011, 00:09

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Вокруг этой темы возникла даже легкая паника. Чтобы в дальнейшем не происходило подобных вещей, хочу рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Прежде всего личную информацию посетителей сайта необходимо защитить, например, закрыть паролем. Если же такая информация никак не защищена, она запросто может стать доступна всем пользователям сети. Для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя — хоть на страницу заказа, хоть на страницу регистрации.

Вторая важная вещь — необходимо запретить поисковым роботам индексировать страницы сайтов с информацией, которая не должна стать публичной. Для этого существует файл robots.txt. Это текстовый файл, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. То есть владелец сайта или вебмастер всегда может позаботиться о том, чтобы поисковые роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Проверить, какие страницы сайта проиндексированы Яндексом, можно с помощью сервиса Яндекс.Вебмастер. В сервисе существует специальный инструмент для проверки корректности файла robots.txt — с помощью него можно проверить доступность страниц для индексации поисковым роботом Яндекса.
 
Чтобы все понимали, как данные попадают в поисковики, давайте проследим, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска.

Итак, страница появилась на сайте. Не важно, статический ли это html или динамически созданная серверным приложением страница. Важно, что у нее есть текстовое содержимое, которое могут читать пользователи и индексировать поисковые системы.
Разместив в интернете свою страницу, вебмастер ждет посетителей. Как он может рассказать людям о ней?  Конечно, он отправит запрос на индексирование страницы поисковым системам. Возможно, отправит ссылку друзьям и знакомым, сократит ее и выложит в Твиттер, другие блоги и соцсети. Он может поставить ссылку на эту страницу и в других местах, уже известных поисковым системам, чтобы роботы быстрее ее нашли. 

Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету:
•    поисковые системы, куда вебмастер отправил ссылку вручную;
•    блог-платформы и сокращатели ссылок;
•    поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро);
•    всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее;
•    компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов.


Если у странички стандартное имя, например, /admin или /login, ее быстро найдут всевозможные сканеры уязвимостей, которые постоянно обходят интернет. Про нее могут знать интернет-провайдеры всех тех систем, которые мы перечислили выше, провайдер самого сайта и все провайдеры по пути. Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ. Иначе говоря, к этому моменту про новую страницу знает уже половина «роботной» части мирового интернета.


И только теперь на страницу заходит первый пользователь. Например, сидя в интернет-кафе, человек кликнул по ссылке в Твиттере и перешел на страницу. Конечно, этот клик зафиксировал javascript системы статистики сайта — в данном случае Твиттера. Как правило, пользователь попадает на страницу через сервис сокращения ссылок, и переход осядет в логах этого сервиса. Дальше браузер открывает страницу и начинает загружать объекты — картинки, анимацию, скрипты, css, рекламу, коды счетчиков и систем статистики. Если в браузере установлен антифишинговый или антивирусный плагин (собственный есть почти во всех браузерах и почти везде включен, а некоторые антивирусные компании еще добавляют свой), он отправляет адрес посещенной страницы на проверку. В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер. Бывает так, что трафик пользователей в публичных местах пропускается через прокси-сервер — для защиты от атак, экономии IP-адресов или ускорения загрузки страниц. В этом случае все указанные взаимодействия пройдут через прокси-сервер, и он тоже узнает о странице.

Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы. При наличии на странице iframe о ней будет известно системе показа рекламы или сервисам других систем, загруженных через iframe. Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер. А также юноша, сидящий в кафе за соседним столиком и недавно прочитавший в молодежном журнале, как просматривать чужой трафик в публичных wifi-сетях.

Итак, теперь можно сказать, что почти весь мировой интернет знает про существование этой ссылки. Дальше информация о таких ссылках анализируется и проверяется, сравнивается и обсчитывается, агрегируется и консолидируется многими-многими системами. Происходит это довольно быстро. Бывает — всего за несколько секунд. В конечном итоге многие такие ссылки так или иначе становятся известными поисковым системам.

В этом месте хочу еще раз обратить внимание: поисковая система получает из разных источников только ссылки, а не содержимое страницы. Сколько может быть этих ссылок? Очень много. Например, еще в 2008 году Google сообщил, что их поисковой машине известно более одного триллиона (это тысяча миллиардов) уникальных ссылок. Разумеется, с той поры мировой интернет стал еще больше. И это при том, что индексируются только страницы, которые доступны всем пользователям.

Все ссылки поисковая система пропускает через фильтры, чтобы определить, нужно индексировать конкретную ссылку или нет. Некоторые ссылки отфильтровываются. Из полученного списка формируется очередь для обхода поисковым роботом. Порядок обхода может быть разным, он зависит от многих факторов. Важно, что робот старается отобрать и проиндексировать в первую очередь самые востребованные ссылки.

Дальше система управления поисковым роботом идет по списку ссылок и готовится индексировать содержимое страниц. Но прежде чем поисковый робот обращается к конкретной странице сайта, он обязательно проверяет файл robots.txt. И если владелец сайта не желает, чтобы новая страница индексировалась поисковой системой, он может попросить поискового робота этого не делать. И поисковый робот не будет этого делать. Конечно, злоумышленники, желающие украсть важный файл, не обратят внимание на содержимое robots.txt, но все крупные поисковые системы в обязательном порядке выполняют директивы этого файла.

Только если поисковый робот убедился, что robots.txt не запрещает индексирование странички, он будет ее индексировать. Это — единственный путь, по которому содержимое страницы попадает в поисковую систему. Другого способа нет.

Когда робот получил контент страницы, он снова применяет фильтры — отсекает мусор и спам. После того, как страницы отфильтрованы, можно приступать к ранжированию. Все страницы, доступные поисковой системе на этом этапе, могут появиться в результатах поиска. Таким образом, в поиске находится всё, что открыто всем и не запрещено вебмастером.


Владимир Иванов, информационная безопасность Яндекса

149 комментариев
Подписаться на комментарии к посту

Мы знаем, что все происходящее лишь отражение ужасающей действительности - нас всех хотят поработить, вшить нам чипы и индексировать всю нашу жизнь.

Подробнее здесь: http://langustart.livejournal.com/

 

Меньше смотрите Голливудские фильмы) У них кино интересное, но близко к сердцу не принимайте)))

а вы наивны как ребенок

Скорей бы уже!
Очень красиво расписано... но порою о нюансах работы алгоритма знает лишь разработчик :)
Что касается наблюдений извне, то Яндекс индексирует не только те страницы, которые находит по ссылке или через адурилку... и тут уж извините :)

Стараться сделать мир лучше это хорошо, но лучше измениться самому и тогда мир вокруг тебя тоже изменится. (с) измененная цитата Серафима Саровского

никто не скрывал, что работает оно именно так

читайте уже спеки и не сушите кота в микроволновке

Зря вы эту тему начали. Пять пунктов о том, как ссылка может стать известной поисковой системе, но ни одного правильного ответа на вопрос, как «Яндексу» стали известны урлы SMS-сообщений с сайта.

Чему нас учит эта история? Сайт, предоставляющий услугу, например, трекинга почтовых отправлений, никак не защищён от беспринципных поисковых систем. Закрывать страницу с трекингом паролем — неудобно для клиента. Она должна быть доступна, вообще говоря, двоим: отправителю и получателю, поэтому отправитель должен дать получателю ссылку. Файл robots.txt не является директивой, это лишь рекомендация. В результате, если владелец сайта ставит Яндекс.Метрику (хочется же получить полную статистику посещений, в том числе и для того, чтобы мониторить возможные резкие изменения), он получает утечку информации. Если у пользователя стоит Яндекс.Бар, больше нет приватных урлов — всё уходит в Яндекс и может быть проиндексировано.

Спору нет, сайты нужно защищать, оберегая частную жизнь клиентов. Но в данной ситуации странно делать вид, что урлы с SMS-сообщениями были публичными изначально. Не были. Стоило честно сказать, как «Яндекс» о них узнал. Прислал ли вручную вебмастер, поставил ли кто-то внешнюю ссылку, был ли адрес добавлен в RSS-поток… или всё-таки что-то другое. Любому технически грамотному пользователю понятно, что ваши пять пунктов — про другие случаи.

Вот-вот, я тоже тогда посмеялся с первых заявлений Я, о том, что мол Мегафон виноват из-за отсутствия robots.txt и присутствия Метрики или Я.Бара. (:

Вообще, чем дальше в лес, тем больше всё это напоминает отмазки типа:

- Почему небо синее?

- Потому что Васенька полутора годочков от роду какал с утреца поносиком.

Ничто ни к чему отношения не имеет. Мы, с одной стороны баррикад, разгадываем алгоритмы, а потом еще выясняется, что виноваты мы. И совсем не потому, что разгадываем. А потому, что Я сделал так, а не так. И никого не предупредил.

Vartan Khachaturov
26 июля 2011, 01:59

На кой хрен ставить Яндекс.Метр или какой-нибудь analytics на закрытую часть сайта? А пользователи баров соглашаются с EULA, где всё это написано. Что никто не читает EULA -- так это проблемы пользователей, и если подписывание документов, не читая, входит в их привычки, так у них гораздо больше проблем, чем какие-то там смски в открытом доступе.

Это интернет, детка, тут открыто всё, что специально не закрыто.

Меня не устраивает ни одно пользовательское соглашение, потому что их пишут так, чтобы прикрыть спины настолько, насколько это возможно. Что толку с чтения LA, если вариант «не пользоваться» подразумевает «написать свой»?

А зачем ставить — я писал, читайте внимательнее. Альтернатива прежняя — ставить собственные счётчики.

Это вот вы верно. (: Поставь как минимум ЛИ + Я.М = дружба с калькулятором и поднятые брови. (((:

Есть такой локально устанавливаемый счетчик Piwik называется, я им пользуюсь.

Метрика г-но!

Во-первых, правила о Метрике все уже давно прочитали и тем более негоже обвинять заранее в непрочтении этих правил администраторов и программистов портала Мегафона.

Во-вторых, никто бы и не ставил Метрику на те части сайта, которые доступны по уникальным нигде не публикуемым* ссылкам, если бы в правилах ее использования было бы сказано, что она может сливать ссылки поисковым роботам, таким образом давая им возможность проиндексировать личную переписку или персональные данные**, что наказуемо***, вместо того чтобы не делиться ими вообще ни с кем, как это и описано в правилах ее использования.

В-третьих, вопрос стоит не столько о личных данных - хотя конечно людям неприятно узнавать, как их заказы в секс-шопе, например, становятся достоянием общественности, сколько в плохо оказанной услуге Яндексом Мегафону и остальным компаниям или просто частным владельцам сайтов - ведь последние ничего не знали про утекание ссылок через Метрику****.

 

*Если только сам пользователь, кому она предназначена, не опубликовал ее, но это уже его трудности и вопросы к предоставившему ссылку снимаются.

**Это не одно и то же, согласно 152-ФЗ.

***КоАП РФ, ст 13.11. Правда, по ней там сущие копейки выходят, никого казнить не будут.

****По крайней мере, пока что действительно все выглядит так, что утекало через нее или Яндекс.Бар - рассказы про какие-то иные способы, опубликованные выше сотрудниками Яндекса, выглядят пока что слишком неубедительно.

Я вот не пойму, откуда берется эта глупость "никто бы и не ставил Метрику на те части сайта, которые доступны по уникальным...", да никто никогда даже представить себе не мог, ставя код счетчика в общий для всех страниц(!) шаблон подвала сайта(! называется что-то типа footer.tpl, если кто забыл такое), что этот счетчик полезет отправлять все возможные адреса, и не куда-нибудь там, "чисто для вашей же статистики", "чтоб в личном кабинете метрики посмотреть", а прямиком в поисковой индекс. 
Это вообще-то действительно нехреновая жесть, и похоже на то, что вариант таких вот приватных ссылок банально не предусмотрели.

Кстати, многие сайты, чтобы не заставлять пользователя лишний раз логиниться для просмотра, например, личного сообщения, зашивают в почтовое сообщение ссылку либо со специальный хешем, либо прямо с логином и паролем. Ведь эту ссылку никто, кроме владельца почты не увидит, правда ведь?
Никто не пробовал ещё такое в Яндексе искать?

 

П.С. Извиняюсь за адресацию сего сообщения, по поводу мифических "частей сайта" критически накипело только сейчас, прошу не принимать на свой счет, ибо коммент выше более чем адекватен. Просто пусть и это тоже "тут полежит".

да не обязательно по метрике на самом сайте спалили урлы.

Вот отправил пользователь с мегафона сообщение. Очень часто он потом в этой же вкладке открывает следующий сайт и попадает туда с реферром о предыдущем адресе. А на той странице уже стоит Метрика или Директ которым становится интересно откуда это такой посетитель пришел и вдруг на точ странице есть еще какие ссылки. Вот они и проиндексировались.

Если бы метрика с самого Мегафона палила ссылки, то все сообщения попали бы в индекс, а не маленькая их часть!

маразм какой-то

Реферрер = откуда человек пришел, с какого сайта. Кликнув по ссылке. С мегафона он ни на какие ссылки не кликает.

эх) если на вкладке где открыт мегафон человек в адресной строке напишет что-то и перейдет туда, то реферером окажется именно мегафон. кагбэ)

ложь и провокация

 

нет перехода по ссылке — нет рефа.

ЛИ такие ссылки показывает, факт

Тоже вариант.

>Никто не пробовал ещё такое в Яндексе искать

по таким ссылкам и были найдены все эти урлы, которые этот минискандал сгенерировали

проиндексировалис даже страницы авиабилетов с паспортными данными. Там поди можно и отменить чей-нибудь билет или даты поменять...

Чего вы на эту метрику накинулись? Логи доступа в интернете валом доступны поисковикам, один раз по ссылке сходил - и все, "интернет ее запомнил". Это должно быть известно любому начинающему веб-строителю, не говоря уже о тех кто клепает федеральные порталы.
Вообще сервисы странные какие-то "влетели":
* мегафон - нахрена вообще хранить данные об отправленных СМС на вебе, тем более выкладывать в общий доступ.
* сексшоп этот - неужели не ведется база пользователей и не используется авторизация, соответственно не прошедшему авторизацию клиенту нафига отдается приватный контент?
Ответ один - строили раздолбаи, а потом удивляемся, почему у нас мосты пляшут!

 

Поддерживают в том, что  не важно как именно URL стал доступен.

Важно то, что серверный скрипт на этот пусть и уникальный URL, который запросил совсем другой клиент, выдал расположенную по нему информацию, не произведя повторную аутинтефикацию пользователя.

А это уже попахивает тотально неграмотностью WEB-программистов, причем, как показывают последние сообщения - довольно большого количества WEB-приложений.

 

Извини, но логи доступа это не совсем то, что мы тут видим. И если я уверен, что логи моего доступа никуда не утекут, а тем более уверен, что мои ссылки для клиентов - временные (у конкретно Мегафона так и есть, там открывались пустые страницы по тем линкам на смс), то мне нет никакого резона как разработчику делать доступ с аутентификацией сложнее, чем уникальная ссылка. И закон мне никак не может приказать это сделать, так как личная переписка - это не персональные данные, согласно 152-ФЗ, а значит и вопрос стоит только в ее публикации. Опубликовал в открытый доступ кто? Ну явно не я.

 

В общем, вопрос лично для меня тут стоит только лишь в хреново сделанной услуге Метрика (ну и у других поисковиков если есть что-то подобное, собирающие и передающее ссылки), работа которой была описана не так, как она происходила на самом деле.

А что касается публикации личной переписки, которая как выше уже сказано под персональные данные не попадает, а значит и не попадает под обсуждаемые в этом ключе все законы, тут требуется ответ юриста.

> И если я уверен, что логи моего доступа никуда не утекут

Вот из-за такой уверенности и все проблемы. Урл, переданный в get-запросе - это открытая информация и она совершенно спокойно может быть доступна кому угодно. Не хочешь заморачиваться с аутентификацией - защити хотя бы минимально типа robots.txt, как яндекс справедливо пишет, но будь при этом готов к тому, что приветная информация (пусть и не личные данные) ТВОЕГО КЛИЕНТА будет доступна кому угодно. Этот клиент к конце концов и проголосует "кликом" за подобное IT-решение.

Знаешь, тут еще один сайт всплыл, и ты не поверишь - в их коде тоже есть Метрика! Так что я вот что скажу - если бы Яндекс нормально предоставлял свои услуги - все было бы ОК, и никуда бы ссылки не утекли.

А включать мне или нет параноик-мод при создании порталов - это мое личное решение :) И вопрос тут не в потере клиентов, а в услугах одной компании другой прежде всего. И уж если я потеряю клиентов из-за этого - это второй момент в цепочке.

 

Чем больше ведется авторизации - тем больше утечет через метрику и referer. Получаем ID сессии из referer - и пошли в личный кабинет, в админку и т.д.

Я не знаю деталей условий размещения метрики, но при размещении метрики, магазин и яндекс вступают в определенные доверительные отношения. И использовать информацию, ставшей доступной благодаря этим отношениям, по крайней мере непорядочно, не говоря уже о нарушении закона о персональных данных. Т.к. индексирование такой информации (не находящейся в свободном доступе, а доступной благодаря некоторым отношениям - размещение метрики) есть умышленной нарушение.


Конечно, непрофессионализм вебмастеров также налицо.

 

C одной стороны да: получив id сессии мы можем получить весь приватный контент. Однако тут тоже не все так просто.
1. Нет никакого стандартного понятия "сессия". Параметр сессии может назваться как угодно.
2. Используйте куки (или поисковые роботы уж и куки умеют?), и в таком случае процесс получения сессии будет для робота совсем нетривиальной задачей.
Важно понимать еще и то, что поисковик не ставит себе задачи проиндексировать ваш приватный контент - ему такие разборки тоже ни к чему. Перед ним стоит другая задаче - как можно быстрее собрать все возможные урлы, открытые для индексации, при этом индексировать в первую очередь наиболее посещаемые (см. Метрика). Ключевая фраза здесь - _открытые для индексации_. То есть выполняя простые правила можно жить со всеми дружно.

Для робота нетривиальной (точнее, нерешаемой в рамках функциональности робота) задачей был и подбор временных ссылок на смс-ки. Эти ссылки попали в индекс не от роботов, а от Метрики.

Вот вы советуете куки, а Метрика их преспокойно видит, она же - скрипт на сайте, и ей всё это доступно. Другое дело, что куки никак уж в индекс не засунуть.

 

Да, именно, "открытые для индексации". И тут хорошо было бы определиться, какие это ссылки. Для меня это - ссылки, свободно доступные на свободно доступных для всех пользователей страницах в интернете. Точка. Ниоткуда больше поисковой индекс брать нельзя, и уж тем более не с сайтов, которые доверили тебе собирать свою статистику (и только статистику).

а ты читаешь эти еула? а если в одном из них написано, что по истечении месяца использования ты автоматически передаёшь себя в рабство? и оправдывайся потом перед людьми в масках, что ты не верблюд.

Про это есть отличная серия сауспарка s15e1. Сами же галочку ставят что «согласен».

о, как.. уже и 15 сезон есть.. отстал я...

Олег Симаков
27 июля 2011, 00:40

Вот жеж.. А я я на 13-м закончил, и думал всё, кончилось.

Написано, Яндекс  и Гугл отправляет на сервер адрес страницы, для того чтоб узнать тИЦ или PR и в этом случае уникальный хэш тег попадает в яндекс, далее дело техники, и паук пошел по ссылкам.

Так на заборе тоже написано. Только вот яндекс тут пишет одно, а в другом месте другое.

Вот лицензия на бар

Пользователь уведомлен и соглашается, что при включении в Программе
функции показа «Индекса Цитирования» для определения индекса
цитирования сайта в интернете, который посещает Пользователь во время
использования Программы, Правообладателю в автоматическом режиме
сообщается анонимная (без привязки к Пользователю) информация о
посещаемом сайте



Информация - понятие расплывчатое, это может быть и адрес, а может быть и содержание. Судя по фактам- передается и адрес и содержимое.

Где-то год назад зафейлился сервис обмена фоточками для айфонов. И
поисковики там были не при чем, просто все фотографии были в открытом
доступе по адресу имя.сайта/многацифр

По идее эта информация
известна только отправителю и получателю, но хитрые парни сделали
скрипт, скачивающий все файлы с адресами от

00000000001 до 9999999999. Самые пикантные потом попали в интернет, довольно интересно было посмотреть.

В последнем Радио-Т все рассказали. Если кратко, то секретные URL'ы SMS где-то засветились. Где - уже не важно. Так о них узнали не только Яндекс, но и Рамблер и Google. Яндекс.Метрика и Яндекс.Бар в истории с SMS ни при чем.

Как вы понимаете — важно. Есть точная информация, как именно эти урлы стали известны кому-то, кроме сервера и клиента?

Не важно как именно URL стал доступен (подчеркиваю: URL, а не контент). Тот же refer при переходе на другой сайт - вообще совершенно легальный механизм.

Важно то, что серверный скрипт на этот пусть и уникальный URL, который запросил совсем другой клиент, выдал расположенную по нему информацию, не произведя повторную аутинтефикацию пользователя.

А это уже попахивает тотально неграмотностью WEB-программистов, причем, как показывают последние сообщения - довольно большого количества WEB-приложений.

Достаточно пройти по ссылкам, висящим в Гугле, на сайты инет магазинов чтобы убедиться, что они любому клиенту выдают данные о заказе, что, очевидно, выдает полностью безграмотного автора такого магазина в головой.

 

Я повторю мысль, высказанную в исходном комментарии. Бывают ситуации, когда урл должен быть доступен нескольким пользователям без аутентификации, и типичный пример — трекинги почтовых отправлений. Защищать их паролем — нецелесообразно. «Яндекс» клянётся, что достаточно закрыть подмножество урлов в robots.txt, но по ряду причин этот способ не выглядит панацеей.

И ещё раз повторю — вина разрабочтиков сайтов очевидна, но в данной ситуации виноваты не только они.

Трекинги почтовых отправлений я и так все могу посмотреть легко перебором, т.к. алгоритм их формирования - известен.

И они не содержат конфиденциальной информации.

Собственно мне не понятно одно: зачем яндекс несет ахинею про robots.txt, манипуляции с которым, очевидно, спасают только от честных поисковых роботов, но упорно не указывает веб-разработчикам на явный ляп.

Чем Яндекс то виноват? Проиндексировал открытый для индексации сайт?.. Узнал великую тайну пользователей - ссылки по которым они ходили?

Действительно полную статистику посещений владелец сайта может увидеть тольк в логах вэб сервера. А сторонние сервисы дают лишь дополнительные рюшечки. И думать опять же не надо: тяп-ляп - готово!

Не всегда статистика закрыта паролем. Далеко не всегда.

И все поисковики с большим удоволствием эти URL из статистики индексируют, сам удивлялся.

Вообще-то тут вполне честно всё написано.

 

В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер.

 

Яндекс.Бар показывает тИЦ, для этого достаточно передавать хост. Кроме того, передавать адрес для того, чтобы узнать ранг — это совсем не то же, что передавать адрес для того, чтобы узнать ранг и поместить переданный адрес в очередь робота-паука.

Ничего не мешает тому же Бару передавать хэш от урла и сравнивать его на сервере опять-таки с хэшами. И назад передавать нужную информацию об этой странице, если она есть, или сообщение, что страницы в базе нет.

Или хотя бы можно было домен передавать, а не всю ссылку. Или просто не добавлять её на очередь робота

Много в индексе документов, запрещенных в robots.txt?

Разрешите уточнить. Сейчас запрещённых или запрещённых в момент последнего обхода? А последний обход когда был — сегодня, вчера, неделю назад? А если в индексе есть страницы, запрещённые в robots.txt, то кто и как докажет, что они были запрещены ну хотя бы пять минут назад? И кому в итоге нести ответственность?

Никакой гарантии robots.txt не даёт и не может давать.

Да я же вполне конкретный вопрос задал: много ли случаев известно вам, когда документы, запрещенные в robots.txt попадали в индекс ПС?

Вроде ничего сложного не спросил.

Ну хотите я на своём сайте поменяю robots.txt и предъявлю одновременно запрет на индексацию — и страницы в индексе? Я ведь тоже простую вещь говорю: если что случится (а у Яндекса может случиться всё, прецеденты были, и сбой в работе робота — вовсе не фантастический сценарий), мы услышим и про то, что robots.txt это только рекомендации, и про то, что докажите сначала, что файл не подменили вот прямо сейчас.

Вот для примера — вы историю, когда Яндекс.Блоги выдавали подзамочные записи (не закрытые, а изначально подзамочные), помните? Всякое было, всякое — и всякое ещё будет.

Ок, ладно, оставим этот разговор - что-то он не клеется :)

PS: я вовсе не защищаю яндекс - я отнюдь не на его стороне.

Моя позиция простая: в этих утечках виноваты обе стороны (и не только одна поисковая система, но и прочие), хотя вина и несопоставима. С одной стороны — разгильдяйство вплоть до преступного, с другой — желание проиндексировать всё что угодно любыми средствами.

Но задели как раз пять причин (плюс рассуждение про хакеров) на тему «как могут распространяться урлы». Вот это показалось лицемерным. Мол, ссылки распространяются по-разному, чего вы от нас хотите? Ну хотя бы честного ответа хотим.

Эту позицию я поддерживаю.

Но в то же время думаю, что если закрывать всё лишнее в robots, то всё будет ОК.

Не думаю, что эта позиция корректна. Поисковики созданы для индексации всего того, до чего дотянутся. И если они смогли дотянуться до чего-то не подлежащего индексации, то это проблема только того, кто должен был защитить это от индексации.

Об этих урлах знал и Google.

http://dil.livejournal.com/1033887.html

http://dil.livejournal.com/1034236.html

Секретную информацию не нужно делать октрытой. Нужна аутентификация.

Потому и всем понятно Яндекс- зло )

Браузеры от Яндекс, плагины, метрика.

Левиев Руслан
26 июля 2011, 01:27

Вы бы лучше дали советы облажавшимся владельцам сайтов, магазинов как максимально быстро удалить из поискового индекса приватные данные, которые УЖЕ утекли.

Пусть для начала закроют беспрепятственную отдачу информации любому клиенту по проиндексированым уникальным  URL. Т.к. сейчас данный по факту вполне легально продолжают утекать данные про новых заказчиков магазина.

А т.к. инфу сам отдаешь хоть кому - не надо обвинять яндекс в том, что он ее индексирует.

Им стоит установить правильный robots.txt а затем отправить запрос на удаление из индекса ссылок через форму http://webmaster.yandex.ru/delurl.xml

Есть несколько способов:
http://devaka.ru/articles/howto-remove-urls

Но вручную из панели для вебмастеров лучше всего...

ух. Хорошо расписано, Владимиру плюс. И премию за этот месяц.

Да чего уж там! Гулять, так гулять!

В отпуск его, Володьку-то, на Мальдивы! :-D

Толсто.
Бесков Денис
26 июля 2011, 03:46

На k-нары

Посмотрим чего данная контора накопает и на какой курорт кто будет отправлен))

Ситуация с мегафоном какбе подытоживает - яндекс часто индексирует всякую хрень, а нормальным сайтам приходится неделями ждать индексации  :-D

Во во? это точно(+1)

Типцов Сергей
26 июля 2011, 10:30

красава (+1)

(+1)00500

Ну так, уникальный контент как-никак :)

Кому-то эти банальности еще неизвестны.

Все правильно, пусть разработчики грамотно сайты разрабатывают.

Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер.

Поздравляю вас гражданин яндекс, соврамши! ;-)

Ваш троян.. ой, бар,  не только адрес передает, но и содержание страницы. И еще много чего.

Когда бар только был разработан, Каспер на него матерился по черному, потом "что то случилось" ($$$ занесли?) и Каспер с ДрВебом перестали реагировать на бары.

Вобщем, вы уже в яндексе облажались по полной, когда гугль схавал ваше wiki.yandex-team.ru (он тоже переходил по ссылкам?- ай я яй- но страницы то были запаролены, и проиндексировать, по ссылкам, как вы соврамши, он ничего не мог.:-)

"В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер."

А сервер бац - и передал адрес страницы поисковому роботу. Поисковый робот робот зашёл по адресу, и проиндексировал приватную страницу в поисковой системе Яндекс. Profit!

Да незачем ему туда переходить :)

Бар ее на месте хавает, вместе в временем просмотра, как мышка там ваша движется и др. ПФ то надо отслеживать.

Но яндекс это никак не комментирует. Нет бы честно написать, что такая то инфа передается.

Так скрывают, а то seo-шники начнут накручивать

нормальная и серьезная контора не будет чистить плохие отзывы о себе и оставлять тока положительные
 как то подетски это все.  Гугл ни разу не чистил, у них в блоге сраться можно, если без оскорблений

Проиндексируйте двачи, вот бугурта то будет на весь интернет. [:]|||||||||[:]

Где прокуратура? Почему никто не занимается распространением персональных данных?

(+1)

А если базу данных аптеки проиндексируют с анализами кала поциентов?

Если ты оставишь эти анализы на улице или скажешь где их можно взять и посмотреть, то прокуратура тобой и займется (ибо ты нарушил режим секретности). А вовсе не тем, кто их посмотрит.

Всё это очень плохо. Надо вносить законы, которые бы ограничивали бы интернет, как например запрещены вирусы или там торренты, так же надо и полисковые машины в рамки поставить, как и сайты с базами данных пользователей. Шифрование подобных баз спасет интернет и результаты поиска, >:-)в случае чего, будут нечитабельными.

Хм, а где сказано что запрещены торренты? Сайты с базами персональных данных и так регламентируются. А поисковики не индексируют, то чего нельзя взять по ссылке, и даже при этом можно его приструнить дав инструкции в robots.txt. Что ж еще нужно?

А шифрование, вообще несколько не про то.

Нужно законы.>:-) Строгие.>:-) Чтобы человеческий фактор в лице барадатого одмина и сайтостроителя как чертила от ладана бы трясся за написание правельного кода и не клал припоры на "ну и пусть моя поисковая машина всё что ей вздумается ищет"!1

А давайте вообще отберем у всех компьютеры и никто не будет класть приборы и переживать за инфу.

Заметили что вся эта бодья началсь после того как Яндекс на IPO вышел. Видимо кому то очень не понравилось, то что они это сделали. Вот и начали компании подсирать, такими "фишками". Вопрос только кто так не доволен этим IPO....

фсбешники не довольны ибо ipo в другой стране было, чтобы если что защита была от захвата. Хотя судя по активным логам каждого моего пука в сервисах яндекса, фсб давно уже стрижот нерадивых (love) гавриков совместно с яндексом =)

Частным компаниям нет особого смысла передавать инфу кому то из третьих лиц. У них денег побольше чем у ФСБ и других гос структур вместе взятых.

А то что какие то сведения о посещямых мной ресурсах передаётся, то я не против этого. Таким образом реклама показывается блолее релевантная, а также учитываются поведенческие факторы, что делает интернет более качественным.

А ты подумай, что о тебе передается в соц сетях, особено в РожаКниге!

Ничего сферх секретного, из соц сетей про меня из соц сетей не передашь. У меня там нет инфы об НЛО или ещё каких то подобных сверх секретных фишек)

А кнопочку лайк  не тыкаешь нигде? А интересы не описываешь? На самом деле у тебя там инфа про Тебя, твой псих. портер, граф друзей и знакомых. А учитывая ник, адрес почты, прибавив сюда поиск на других ресурсах, можно столько всего узнать, что закачаешься.

Я говорю не надо много фильмов смотреть Голливудских. Типа про Джейсона Борна, и Джеймса Бонда, а то сума можно сойти. 

Личную информацию узнают только о тех, кто занимает высокое положение в обществе (политики, бизнесмены и так далее), информация обычных сошок никому не нужна, пустая трата времени, а чтобы её получать надо ещё и тратиться.

Так что ключевой вопрос "Зачем?" и вы так на него и не ответили.

Во-первых, кто может дать гарантии, что вы в дальнейшем не станете политиком?

Во-вторых, какая разница, сколько нужно времени, если эти данные будет систематизировать и анализировать компьютер. Тем более что для их получения не требуется никаких особых, долговременных усилий.

А чтобы адрес ваш узнать, тут интернет не нужен - так наивные люди думают, что их через инет палят и пытаются похитить))

Всё проще, покупается инфа у паспортного стола, и всё.

 

Хех, наивный, если бы паспортные данные были самой важной информацией. Это всего лишь способ идентификации.

Это самые важные данные, говорю как юрист и It специалист. А какая у вас там музыка в плей листе поп или рок, никого не интерисует.

думаю что сейчас паспорт уже мало что решает. Есть проги для подделки, ну и в паспортных столах те же люди работают со всеми вытекающими. Да те же симки продаю по паспорту, но где гарантии, что продавец не оформляет их задним числом в промышленных масштабах на кого то из базы, а потом не продает на КАВКАЗ?

(+1)

Только анализ днк и спермы спасут этот мир!11

Некогда мне тут холи вары разводить, пойду как лучше работать, а не кричать что скоро окнец света, всех нафиг поработатя и Яндекс и Майкрософт это империи зла и нам всем капец.

Я не говорил, что конец, я просто говорю, что личных данных в инете выше крыши.

Понимаете, сайты писать надо по человечески. Наймут неучей, а потом у них видители SMS ки в паблик вышли. Не удивлён, нисколько. Если уж у наших операторов в соседней деревни уже связи нет... Да и не только у операторов. А потом проще же поисковые машины обвинить и всё..

Вот! С этим я полностью согласен!

Пикантный вариант: веб-сервер сайта в результате какого-нибудь сбоя может и не отдать поисковому серверу файл robots.txt. Страничку с приватными данными отдал, а robots.txt не отдал.

Конечно, при следующем посещении поисковый бот таки найдёт robots.txt, но следующее посещение может быть не скоро, и до этого момента приватные данные будут видны всем желающим.

Для этого есть htaccess, не уш то никто из разработчиков про него ничего не слышал? А всё потому что разрабы наших сайтов порой бездари, ну а потом конечно проще поисковые машины винить.

Александр Абдрахманов
27 июля 2011, 00:10

Вот, наконец-то кто-то сказал про htaccess Прямо ржач берет с этих разговоров про роботс - ни хрена он не гарантирует.

Создатели дырявых сайтов - бездари, яндекс про роботс врет.

Расскажите-ка, как с помощью htaccess закрыть доступ к странице для Яндекса?
Поэтому первым пунктом указано: закройте приватные данные паролем.

Ну да разработчиков же не доходит как это сделать))

Просто интересно: все эти однотипные магазины, которые сейчас так просто отдают своих клиентов поиском по Яндексу - они какой-то платный софт используют, или фриварь?

Если платный, то разработчиков можно бы даже натянуть.

"В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер."

Обычный шпионский софт - как нам объясняет разработчик. =))))

Так мило объясняет про то что следит за юзерами, что даже ругаться не хочется.. =))))
Устименко Александр
26 июля 2011, 15:18

Спасибо, кэп!

Я конечно понимаю, что в данный момент поисковики попик прикрывают и он у них вроде как прикрыт. Но!

Но мне как конечному юзеру крайне непонятно, почему это такие мегаинтеллектуальные поисковики, которые умеют понимать запросы типа "яндекс не дурраги песале" не понимают, что выливается приватная информация типа новых самотыков юзера или способов их применения по смскам. Мне как бы пофигу, что авторы сайтов мегафона и самотык-магазина не удосужились грамотно токены сессионные мочить -- я как бы надеялся, что яндекс такой умный, что поймет, что в урлики типа *sessionid* лучше не ходить (это конечно утрация :) ), но не тут то было :(

 

Кароче, яндекс, если ты с яйцаме, то возьми ответственность и придумай способ, как юзерам безопасно самотыки заказывать.

Александр, жжоте напалмом! :-D

(+1)00500 к каждому слову. Я думал об этом же.

Ребятам о зверятах просто!

Почему бы не опубликовать каким образом эта информация попала в индекс - столько то ссылок из твиттов, публичных логов прокси, систем СОРМ, по ошибки открытого каталога смсок на сайте оператора и тд (чтобы все могли убедиться и проверить сами). Без всей этой информации создается впечатление, что в этом все-таки вина Яндекса. Если это Бар - то это полный ахтунг. Про Метрику не особо знаю, но врядли администраторы мегафона выкладывали настолько подробную статистику в публичный доступ, то есть тоже фэйл.

Понятное дело, что вебмастера мегафона могли проверять не только хэш но и сессию пользователя. Но это не отменяет того факта, что шпионить за пользователями нельзя. Есть огромное множество способов расшаривать информацию по хэшу в урле (pastebin и тд) и заявлять, что мы будем вам показывать пейджранк и втихую пополнять индекс этими страницами и вообще вы сами себе буратины -  не правильно.

Алексей, больше всего пугает именно это. (: Причин - много. Одна точная - неизвестна. Роботсы - не панацея. И в результате в корне неясно, как бороться с такой "утечкой" данных. Не ставить Метрику? А вдруг, это не она?

Целиком и в общем, я с вами полностью согласен. (;

Владимир, Вы много написали тут про robots.txt, однако на живом примере мы можем убедиться, что это не так: http://yandex.ru/yandsearch?text=site:leprosorium.ru&lr=37
как мы можем видеть - в индексе 20 страниц, однако: http://leprosorium.ru/robots.txt
Уверен, что наверняка есть еще примеры. Объясните это, пожалуйста.

http://www.google.ru/search?ie=UTF-8&hl=ru&q=site:leprosorium.ru#q=site:leprosorium.ru&hl=ru&newwindow=1&prmd=ivns&ei=DMEuTpioEY65hAfSjs09&start=10&sa=N&filter=0&bav=on.2,or.r_gc.r_pw.&fp=3b88b2a4aaf97543&biw=1920&bih=928

Гугл также прекрасно отдает контент закешированный, что может говорить лишь о том, что http://leprosorium.ru/robots.txt стал запрещать индексацию совсем недавно.

http://leprosorium.ru/robots.txt
Last-Modified: Fri, 01 Aug 2008 06:37:38 GMT

странно, да?

ПС может наплевать на этот файл, если сайт очень популярен и посетители его ищут в ПС. Зачем терять эту аудиторию для ПС?

Алексей, ничего странного. (; Еще один фэйл в копилку ПСов.

Пользуюсь бесплатной системой Drupal после новости об смс мегафона тоже возникал вопрос проверить форму обратной связи пользователей моего сайта со мной, но как показал Яндекс.Вебмастер robots.txt вшит в мою систему при установке Drupal и эти страницы защищены! Так что теперь моя душа спокойна за своих пользователей!

Если кому-то понадобится помощь в изучении вопроса того, какие данные открыты для индексации и закрытии этих данный - обращайтесь за поддержкой сайта :)

"злоумышленники, желающие украсть важный файл, не обратят внимание на содержимое robots.txt, но все крупные поисковые системы в обязательном порядке "

Много крупные поисковые системы обращают внимания, да. На директиву Host:, например...

У меня такое вот предложение разработчикам Яндекса: может, по умолчанию исключать из индекса все урлы со стандартными паттернами авторизаций и т.п.? Ну, например, если в урле есть параметр sid=8658346блаблабла,
этот урл не индексируем. Или индексируем его только при наличии явного указания делать это в robots.txt. По-моему, логично. И уж тем более этот фильтр нужно применять к урлам, полученным одним из "сравнительно честных способов" - то есть через тулбар, метрику и т.п.

Дело в том, что  невольными заложниками ситуации стали обычные люди. Пока поисковик и веб-мастера будут спорить, кто их них крайний — страдают простые пользователи. Они между молотом и наковальней.

И Яндекс, как априори более крупная/сильная/профессиональная сторона, должен проявлять больше такта и ума. Это как встреча министра и комбайнера — второму позволительно в разговоре случайно пропустить матерное или просто неграмотное словечко, а первому нет.

Владимир, вот платоны рекомендуют закрывать ненужные страницы через clean-param, а директива не работает так как написано в документации. (посмотрите хотя бы сайт яндекса, она и на нем некорректно работает).

Получается вы советуете использовать методы, не гарантирующие точную работу. Тоесть может не проиндексирует, а может и проиндексирует.

СМИ, мусоля тему утечек персональных данных и Яндекса настолько невежественны, что просто диву даешься.

Сегодня мне, как оператору и совладельцу ма-а-аленького интернет-магазина позвонила девушка, которая представилась корреспондентом из "Известий".

ОНА: вы в курсе ситуации сложившейся с Яндексом и утечкой персональных данных из интернет-магазинов.

Я: Да, в курсе.

ОНА: Вы можете как-то это прокомментировать?

Я: Могу. Нас и наших клиентов это никак не коснулось.

ОНА: Как же, ведь коснулось.

Я: Откуда вы знаете? Пример можете привести?

ОНА: Да, вот в Гугле вижу персноальное письмо с уведомлением о заказе от (такого-то товарища).

Я: Хм, а как товарища зовут? Какой у него e-mail, особенно после собачки?

ОНА: Александр, asdasd.ru. ......

Пришлось рассказать девушке, что никоим образом наличие в Гугле письма, отправленного на asdasd.ru, не порочит работу Яндекса.

Ох уж наши СМИ.

ИМХО: Яндекс хороший.

ну есть конторы, которые берут web дебилов делать сайты, да бы с экономить, не понимая даже чего хотят, а технологии поиска и сайто строения не будут ждать этих дебилов когда они научаться понимать логически что их попросили сделать.

и тоже поддержу таварища, который сказал меньше смотерть голивудских фильмов о вживлении чипов и цифровых мозгав, человеческий, поведенческий фактор ни когда и ни чем не будет превзойден.

а дальше, страшнее))) уже не то образование и не тех плодят.

Интересно, как это прокомментирует Владимир Иванов? https://twitter.com/#!/positiveque/status/95905376913997824

;-)

Яндекс, он большой и важный. А Володька, просто райтер спичей, которые пишет отдел спичрайтеров Яндекса. (:

Володьке-то и отвечать не нужно. Мы от Яндекса никуда не денемся, а Яндекс от нас - запросто. B-)

«А также юноша, сидящий в кафе за соседним столиком и недавно прочитавший
в молодежном журнале, как просматривать чужой трафик в публичных
wifi-сетях» — тонко :)

Теперь Яндекс должен пояснить, зачем он берет URL-ы из яндекс.бара для индексации.

Да, можно сказать - вы не читали пользовательское соглашение, поэтому и не отказались устанавливать Бар.

Так же в соглашении говорится об отсутствии привязки к пользователю, однако cookie yandexuid всё-равно передается на сервер Яндекса (это идентификатор пользователя, к которому привязываются все действия).

Для начала стоит разобраться в своём огороде, а потом пинать на вебмастеров.

Графический централ, ветер кулерный...

Ну всё у программистов ровно -- а мы сами -- дураки о себе распространяем информацию ио инету... Эти соглашения -- читай -- не читай -- ну не согласен ты с ним -- что дальше? Называется так -- не согласен -- иди на х! Ещё -- лично меня напрягает то что при открытии любого сайта -- кроме того что ты видишь -- загружаются ещё х.з. сколько программ -- и ты понятия не имеешь не только о том чем они занимаются -- но даже и о том что они уже загрузились и работают. Идексирование -- кому оно нужно? Мне? А на фига? Что оно мне даёт? Кому-то? А на хрена мне должно быть нужно то что нужно кому-то??? Между прочим федеральный закон о защите информации -- никто не отменял -- также как и закон о том что любые документы противоречащие федеральному закону -- не подлежат исполнению. Что значит -- сам дал согласие на распространение информации? Да в этих соглашениях такие кучерявые формулировки -- что у юриста мозги поплывут -- их разгадывать! Вот и выходит -- чтобы пользоваться инетом -- надо до кучи быть юристом и программистом -- ну прям как в совке -- купил машину -- и ты должен стать автомехаником... Пусть машина у меня спрашивает -- согласен я на индексацию или нет -- почему я должен знать все эти хитросплетения -- откуда??? В инете разрещено всё что не запрещено -- скрытое собирание информации о граждание разрешено только ФСБ и МВД -- и то -- с кучей ограничений -- а в инете -- про тебя программы -- легальные!!! -- скрытно собирают информацию и распространяют её -- я, видите ли, разрешил -- тока они меня не предупредили об этом... То есть предупредили -- в соглашении которое уже написано так -- что я сам во всём виноват... Дальше -- печатные слова у меня кончились, а непечатными -- не хочется выражаться!!!

Не соглашусь с критикой здесь вебмастеров кинутых сайтов. Пыр от 5, посещаемость очень хорошая, оптимизация на уровне, CMS определить не могу, но кажется, что писались специально под сайты. И всякие друпалы с замечательными роботсами, упомянутые здесь, давно бы уже под такой нагрузкой лежали, или были бы так прошиты, что там от друпалов бы ничего уже не осталось.

Мне кажется, что люди, создавшие такие сайты либо профи, и поэтому каждый чих, вроде смс, с сайта является достойным индексирования. Либо шестиклассники (более старшие уже читают про настройку роботсов) и их надо учить тому, что есть такой вот файл роботс.тхт, который всему, оказывается, панацея.

Также за идею, что на вопрос почему находится все, надо четко и недвусмысленно ответить, какова роль метрики и бара в том, что нашлось многое, а потом уже про твердость запретов роботса рассказывать.

То, что Гугл еще раньше прокололся с тулбаром, была в интернете буча. То, что Яндекс после такой бучи не захотел отправить письмо вебмастерам о своих продуктах ДО прокола - очень плохо.

Мое мнение - если бы про специфику бара и метрики знали бы, все бы вебмастера задумались раньше. А вот если бы тогда ничего не сделали - тогда неучи и т.д. 

Да. Еще, что касается неучей. Огласите, пожалуйста, кро кричит параметры ваших сайтов, "товарищи ученые". Посещаемость там по алексе, пыр, и т.д. Никого с тех сайтов я не знаю, естественно, но вот про ваши сайты хотелось бы хотя бы какую цифирь услышать, раз настройка роботсов для вас такое увлекательное занятие.

Вы рассуждаете как типичный представитель потребительского общества, да еще и в теме, похоже, не разбираетесь совершенно.

А вообще, в современном обществе ЛЮБОЙ человек должен обладать базовыми юридическими знаниями и навыками компьютерной безопасности (хотя бы на уровне умения обнаружить и отключить подозрительные программы из автозагрузки и надстройки броузера, понимать, что нельзя выкладывать ссылки с идентификатором сессии в публичный доступ, знать разницу между защищенным и обычным соединением). Ну или если не хочет, то смириться с тем, что с его компом и личной информацией будут творить все, что угодно.

А Вы рассуждаете как советский инженер которому в дипломе можно было смело писать: и швец и жнец и вообще... хороший специалист. :-) Я прошёл эту школу широкой специализации и имел возможность сравнить её качество с качеством школы забугорных инженеров узкой специализации -- небо и земля...

Кому -- ДОЛЖЕН??? Вот -- типичный образчик мышления программисткой братии -- отказ от любой ответственности прописанный во всех лицензионных соглашениях -- мы написали программу -- и теперь все кругом нам должны... Вот прикиньте на себя такую ситуацию -- Вы покупаете квартитру, а стройорганизация снимает с себя всякую ответственность за протечки грыши на основании того что Вы не разбираетесь в марках гудрона... Или -- покупаете автомобиль -- и читаете в документации производителя предупреждение о том что поскольку Вы полный ноль в систме электронного управления прямым впрыском --- вся ответственность за поломки двигателя лежит на Вас.. Почему-то мне мало верится в то что Вы будете согласны на такие условия и будете утверждать что производитель прав.

Должен -- всегда -- производитель, а не пользователь -- пользователь платит деньги -- и уже поэтому никому ничего не должен!!! И если для безопасного пользования компьютером необходимы дополнительные знания и умения -- это должно быть оговорено при продаже вещи -- читайте закон о правах потребителя -- и необходимые дополнительные знания должны поставляться вместе с продаваемой вещью -- в виде инструкции, обучающей программы или любом другом виде -- доступном для освоения пользователем.

Что такое ссылка -- знаю, что такое идентификатор сессии и при каких моих действиях он может попасть в открытый доступ -- да, вот, понятия не имею -- и даже не знаю где это можно узнать. Намеренно выкладывать -- совсем не собираюсь -- но... как Вам объяснить... Вот -- примерно так -- если информации о том как по незнанию случайно не выложить эту абракадабру в открытый доступ -- нет в руководстве пользователя -- я не должен лихорадочно искать её -- не зная где.

У узкой специализации есть один недостаток: как только проблема выходит за ее рамки, она превращается в нерешаемую. 

А вообще, ваша аналогия не совсем корректна, так как работа программы, в отличие от крыши дома, гораздо больше зависит от того, что с ней делает пользователь. Если сравнивать с машинами, то ваша позиция похожа на такую "почему я должен изучать какие-то правила дорожного движения. Я купил машину и хочу сесть и ехать, а разработчики должны предусмотреть, чтобы она препятствия сама объезжала и пешеходов не сбивала!"

А если на разработчиков софта возложить ответственность так, как вы описываете выше, то во-первых, стоимость любой программы возрастет многократно (в нее будет закладываться страхование от возможной ответственности), а во-вторых, сразу же начнутся всякие усложнения жизни, типа "для того, чтобы пользоваться нашим программным продуктом, нужно пройти сертификацию".

Каждую
проблему -- должен решать узкий специалист именно по этой проблеме --
юрист широкого профиля -- провалит все дела за которые он возьмётся --
или почти все -- выиграет только те где квалификация оппонента оказалась
ещё ниже чем его собственная. Юрист узкого профиля -- не берётся за всё
подряд -- но те дела в которых он специалист -- он обычно выигрывает.
Также обстоит дело и в других областях требующих специальных знаний. У
узкой специализации есть достоинство -- высочайшая квалификация в
специализации невозможная для специалиста широкого профиля. А если
проблема выходит за рамки специализации -- просто нужно обратиться к
специалисту узкого профиля по этой проблеме.

Я знал, что Вы
напишете примерно это и в качестве примера приведёте ПДД. Я не говорил о
том что водитель автомобиля не должен изучать ПДД -- я говорил о том
что он не должен изучать устройство ДВС с электронным управлением --
согласитесь -- это -- немного разные вещи. Я умею пользоваться
компьютером -- не пытаюсь в Ворде заниматься Веб-сёрфингом и
пользоваться для обработки фотографии браузером вместо фотошопа -- не
надо передёргивать.

Вот-вот -- и это приведёт к падению продаж -- а
денег так хочется... Отмечу -- что это -- уже -- проблемы разработчиков
-- но никак не потребителей!

Зачем проходить сертификацию --
встройте в программу средства отсекающие индексацию до специального
разрешения пользователя -- выводите предупреждающие окна на рабочий
стол -- кому нужна эта индексация -- мне? Я и без неё прекрасно обхожусь. Многие браузеры уже блокируют дополнительный контент. Да -- конечно возможности для загрузки непрошеной рекламы и хрен знает какой ещё непрошеной дряни сузятся. Ох, блин -- какая беда для потребителя -- он лишится возможности узнать, что ему -- на всякий случай -- а вдруг ему надо именно это, а он не знает где взять -- пытаются впарить всеми правдами и неправдами. Какая трогательная забота... Всё, что мне надо -- я найду сам -- мне подсказки которые появляются в поисковиках из-за бесконтрольной индексации всего чего попало -- не нужны! Они -- наоборот затрудняют поиск -- открываешь ссылку -- а там только одно слово из фразы забитой в поисковик -- ну ни хрена себе -- помощь... И релевантность уже не помогает... В РФии с этой рекламой уже совсем о*уели -- не знают куда ещё её сунуть -- так на кого работают программисты -- на меня или на рекламодателя который щедро отслюнявливает за дополнительные возможности программ ненужные и опасные для потребителя???

Добавлю -- по факту Вы предлагаете согласиться с тем что если Вы не
знаете радиотехники и Вам продали телевизор с встроенными замаскированными видеокамерой, микрофоном и
передатчиком который х.з. куда отправляет всё что видит видеокамера и слышит микрофон -- и Вы не
знаете как отключить видеокамеру, микрофон и передатчик -- не хрена предъявлять
претензии по поводу нарушения Ваших прав -- а надо продолжать
пользоваться телевизором и смириться с тем что Вашу личную жизнь теперь показывают в новостях..

Вы бы ещё добавили, что закрыв информацию в robots.txt или панели веб мастера - её закрывают лишь от добросовестных поисковиков. А всякие злые владельцы счётчиков, баннерных сетей, плагинов всё равно смогут получить к ней доступ.

Это как оставить дверь в квартиру открытой и прицепить записку: "замок сломан, дверь открыта, но хозяина вы здесь не найдёте, он пошёл выгуливать свою злую собаку".

Только что был на хабре, так даже на айти ресурсе этого не понимает добрая половина.

Уважаемый Яндекс, просто ответьте на два вопроса:

1. Передает ли Яндекс.Бар ссылки в индекс поисковой системы?

2. Передает ли Яндекс.Метрика ссылки в индекс поисковой системы?

 

Не сложно же официально ответить на эти вопросы? Не надо воды, просто Да или Нет.

Бугогашко! (: Дрём, судя по спичам Я. Они сами не знают, что куда что передаёт. Именно потому во всех их заявлениях присутствует это злое%*№;е "ИЛИ".

Конечно, после такого фейла можно чё-то допилить. Это не проблемо. Но! Пока, судя по всему, допил и происходит.

Яндекс бар сливает информацию
https://rdot.org/forum/showthread.php?t=1605

Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ.

А можно об этом подробнее? Чисто для общего развиития.

это стала очень большая проблема для многих)

Ох уж эти дешевые и неопытные разработчики сайтов и жадные заказчики...

Находится все, что не надо, анужную книгу, порой днем с огнем не сыскать!