Блог Яндекса для вебмастеров

Поиск оригиналов страниц стал лучше

17 декабря 2009, 13:41

Настоящий. Я это первый открыл вместе с Петром Ивановичем.


Добчинский

Перед поисковыми системами давно стоит проблема определения первоисточника контента в интернете. Иногда издательство выкладывает свои тексты в сеть позже, чем это делают пользователи. Бывает, что у автора контента вообще нет сайта в интернете. Всё чаще встречаются случаи автоматизированного копирования текстов с целью их размещения на спам-сайтах, созданных исключительно для манипулирования алгоритмами поисковых систем, о чём мы можем судить по жалобам в нашу службу поддержки.

Определение первоисточника текста, размещённого в сети, это сложная задача, которая ещё не решена в общем виде. Однако нам удалось построить алгоритм, который во многих случаях по косвенным признакам определяет, какая из группы страниц с одинаковым текстом является оригиналом. Этот алгоритм уже работает в российской формуле ранжирования, а через некоторое время он будет включён и для всех остальных стран.

Алгоритм ещё не обладает стопроцентными полнотой и точностью, но и мы работаем над его улучшением. Будем рады примерам некорректного ранжирования оригиналов и копий, что позволит нам быстрее повысить качество разработанного алгоритма.


Александр Шубин и команда поиска

41 комментарий
Подписаться на комментарии к посту
Низкий поклон вам за это. Пожалуй эта новость компенсирует Снежинск ^_^
это действительно проблема, будет замечательно, если алгоритм будет максимально точен.

Здравствуйте.Алгоритм учитывает этот параметр при ранжировании и индексировании?На примере,украден контент с нового сайта,еще до его индексирования на нем и проиндексируется на сайте того,кто скопипастил  его. Как в данном случае поведет себя поисковой робот?

отгадайте

Любит не любит?

предполагаю, что пока правообладатель не настучит, проиндексированный ранее будет веселее. А вообще, я борюсь и без яши с этими козликами. Обычно через хостинг.
Стучать в Яндекс на эту тему бесполезно.
опыт? у меня он почему-то положительный
в хостинг тоже бесполезно, у меня скопировали сайт выложили в RU-CENTER а те говорят -обращайся в суд, будет решение суда мы их забаним....
Они верно говорят. Тексты когда пишите, не ленитесь отправлять по почте самому себе до востребования с указанием даты) особенно тексты сотимость которых больше 1к рублей.
Новый алгоритм затронет только выдачу, или так же индексацию? Т.е. сайты на копипасте наконец повылетают?
Неужели всякие ипланы с лента ру пойдут лесом?

Ну, по запросу «побег хомяка» традиционно находится всякая хрень вроде фишек, оригинал (http://birdwatcher.ru/entry/2010) лишь на 8-м месте.

Я когда-то писал об этом в службу поддержки, где мне посоветовали заняться сеонизмом, чтобы у меня было больше ключевых слов и поискового спама, чем у сайтов, зарабатывающих на этом.

очень хотелось бы, а то и у меня воровать начали
вот сайт http://www.rollets.ru/ он ипользует в своем контенте фразы с сайта http://www.bestrol.ru/

 например вот эту "Рольставни во всем мире уже доказали свою надежность и эффективность в области защиты дома или любой другой недвижимости."

и ранжируются выше по запросу "рольставни" не понимаю где новый алгоритм
у меня та же ситуация, но ... видимо яндекс не считает нужным отвечать на такие вопросы :(
Да я согласен с Вами, информация с моих сайтов, встречается на многих сайтах в инете мочти без изминения в оформлени, а у меня на её оформление уходит очень много времени и сил.
Если Вы сайты так-же как комментарии оформляете, Ваше время и силы уходят в никуда...
Я занимаюсь ведением сайтов компании, и очень трудно предоставить исчерпывающию информацию о продукции.
Хорошая вещь, молодцы.
Возникает вопрос, что или как лучше делать что бы доказать что тексты мои и перво источник находится у меня на сайте.
Вообще по каким показаниям определяется первоисточник.
Пока реального действия алгоритма в выдаче не заметил, возможно так же как и со Снежинском, - прошло 2 недели после анонса и на 3-ю неделю выдача действительно начала становиться геозависимой. Так что ждем, надеюсь неприятных недоразумений не случиться, покрайней мере "Снежинск" - меня порадовал.
Только не берите в учет дату публиукции, я вот лично свою обновляю когда обновляю сожержимое.
Уважаемый Александр Шубин. Я так понимаю, что вы учитываете дату индексации материала. Т.е. если у меня на сайте статья опубликована и проиндексирована уже в течение полугода(например), а потом её кто-нибудь своровал, то я могу не беспокоиться за наложенные на мой сайт фильтры, т.к. робот теперь знает, что хозяин - это я. Правильно?
И не дай бог что-то сделать с этой страницей после этого. Мои статьи на моем сайте робот определил как чужие. Все дело в том, что я свою статейку откорректировал. За что и поплатился. Благополучно забанен.
Это просто здорово! Еще бы зеркальщик начал нормально работать и было бы совсем отлично, а то пока он поймет, кто там главный, новый домен уже будет копией значиться, карму испортит)

Всегда с большим уважением относилась к команде Яндекса, к тому что они делают для Российского интернет сообщества. Но в последнее время с ужасом жду, вдруг они еще чего-нибудь "придумают" ... что-то бы "улучшить" алгоритм поиска :(

В сентябре, "улучшили" поиск по регионам, в результате наш сайт (www.elakc.ru) слетел с первой страницы в результатах поиска на 4-ю ... никто так и не смог ответить почему это произошло.

Купили нужные слова на директе. Постепенно ситуация опять выравнялась, опять пришли на первую страницу и снова яндекс подкладывает свинью, теперь уже 2-ю.

!Одновременно опять меняют регион на Россию (хотя на сайте в контактах даже висит Яндекс-карта с указанием регионального адреса)

+ плюс, видимо за цитирование информации с сайтов наших поставщиков и партнеров, нас перекидывают аж на 303 позицию в поиске :(

Хотя на сайте на первой странице указано, что эти сайты являются нашими партнерами! И тексты мы перепечатывали из их буклетов с их разрешения :(


Кто-нибудь может ответственно прокомментировать ситуацию? Или опять все "улучшения" останутся без ответа?

В конце концов мы же с вами работаем, платим деньги за директ. Приносим вам не просто прибыль за рекламу, а реальные деньги. Нельзя же так безответственно относится к клиентам?

"Будем рады примерам некорректного ранжирования оригиналов и копий, что позволит нам быстрее повысить качество разработанного алгоритма".

Это вы для красного словца написали???

Мысли вслух: Прошло 2 обновления поисковой базы. Перед первой нам вернули правильный регион. Но это ничего не изменило. Перед 2-м обновлением, текст поправила ... сайт вылез обратно на прежние позиции ... или меня услышали или то, что тексты поменяли так быстро сработало :) Завтра буду звонить клиенту после праздников ... просто не представляю, как буду оправдываться ... ведь с сайтом какая-то ерунда происходит уже 2-й раз :( п.с. На других сайтах вроде не отразилось.
mars-x.ru
Старейший сайт, Яндекс каталог.
Выпал из индекса.
На письмо Платону, был получен ответ, что сайт не содержим оригинальных материалов.

riakreml.ru  Як Тиц 600
Официальный сайт правительства Нижегородской области.   - также выкинут за неуникальный контент.

И далее (все ЯК)
rosaviaexpo.ru - РосАвиаЭкспо
norilskgazprom.ru - НарильскГазпром
tmsat.ru (Тиц600)
mkpk.ru,
fbondarchuk.ru - оф.Сайт Бондарчука (Тиц 250)  и т.д
Все это есть в Гугле, но в Яндекс не ищется.

На все Платон отвечает, что сайт не уникальный. Все сайты выпали недавно - около 2-х месяцев назад.

Яндекс помни - ты в ответе за тех, кого приручил.

funnystory.ru - Анекдоты ЯК.

Не оригинальный контент =)  Ответ Платона.
Это уже издевательство. Получается, что надо переписывать анекдоты.

Вообще у меня в запасе еще 80 отличный сайтов, которые выпали при вводе алгоритма определения первоисточника.

Причина, скорее всего, кроется в том, что если сайт становится не доступен какое -то продолжительное время, то после возрождения Яндекс признает сайт уже дубликатом, а не оригиналом.
Хотя весь дублированный контент, часто, ссылается на акцептор. Более того, часто, акцептор является Як + высокий Тиц.
То есть, все логические признаки оригинала на лицо.

Считаю текущий алгоритм весьма сырым.

Павел.

А как ты от них ответа добился ???


Ты молодец ... тебе хотя бы ответили ...

Наконец-то, станет меньше сайтов, которые используют не свой контент.
Именно не свой! Поздравляю! Я даю статью другу, для его сайта. Размещаю это на своем тоже. И что ж получается? Кто первый, тот и прав? Или хлопчики из Яндекса мне будут звонить: а скажите, такой сякой, не Вы ли тиснули тому сему свою статейку, а разрешение ему давали, а вы ли ее писали? И т.д. и т.п. Кажется это уже диктатом попахивает. Да и не будут она об этом думать. Они на вопросы обвисли отвечать. Я знаю одного известного журналиста, он за своими сайтами не очень смотрит. Так вот, его сайт пропал из поиска, с его же статьями, аналитикой и проч. лабудой. А сайты с перепечатками живы! Так и будем жить за чужой счет. ИЦ повышать и пц получать.
А чем он стал лучше-то ?
Я как-то разместил на своем сайте понравившийся мне текс в виде новостных колонок, вы мне сайт забанили и пишите теперь всякую ерунду что наши алгоритмы приняли решение.....
Уже больше года прошло как я убрал все что могло справоцировать ваши алгоритмы но до сих пор получаю отписки про работу алгоритмов. Але гараж сайт motoauto.su давно уже пытается стать форумом и ждет посетителей из поиска, вы когда уже мне бан с сайта снимите ?

У меня есть еще сайт, на нем я очень хочу размещать цитаты с википедии, что меня тоже забаните ?
Вы себя еще забанте за rss с лента ру и прочих сайтов, задолбал уже этот критинизм!
Отлично определяют первоисточник. У нас дилеры и, назовем их так, любители чужого, растащили тексты по сайтам. И что? Они в топе, мы в ж...
А это называется найдите три отличия
http://norvikboat.ru/info/todealer.html
http://bot-trading.tiu.ru/

И что? http://yandex.ru/yandsearch?text=%22%D1%82%D0%B5%D0%BD%D1%82%D0%BE%D0%B2+%D0%B4%D0%BB%D1%8F+%D0%BD%D0%B0%D0%B4%D1%83%D0%B2%D0%BD%D1%8B%D1%85+%D0%BB%D0%BE%D0%B4%D0%BE%D0%BA+%D0%B8+%D0%BA%D0%B0%D1%82%D0%B5%D1%80%D0%BE%D0%B2%2C+%D1%87%D0%B5%D1%85%D0%BB%D0%BE%D0%B2+%D0%B4%D0%BB%D1%8F+%D0%BB%D0%BE%D0%B4%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D0%BC%D0%BE%D1%82%D0%BE%D1%80%D0%BE%D0%B2%2C+%D1%81%D1%83%D0%BC%D0%BE%D0%BA+%D0%B4%D0%BB%D1%8F+%D0%BF%D0%B5%D1%80%D0%B5%D0%BD%D0%BE%D1%81%D0%BA%D0%B8+%D0%BB%D0%BE%D0%B4%D0%BE%D0%BA%2C+%D0%B0+%D1%82%D0%B0%D0%BA+%D0%B6%D0%B5+%D0%BF%D1%80%D0%BE%D0%B4%D0%B0%D0%B6%D0%B5%D0%B9+%D0%BB%D0%BE%D0%B4%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D0%BC%D0%BE%D1%82%D0%BE%D1%80%D0%BE%D0%B2%2C+%D0%B0%D0%BA%D1%81%D0%B5%D1%81%D1%81%D1%83%D0%B0%D1%80%D0%BE%D0%B2+%D0%B8+%D0%BD%D0%B0%D0%B2%D0%B5%D1%81%D0%BD%D0%BE%D0%B3%D0%BE+%D0%BA+%D0%BD%D0%B0%D0%B4%D1%83%D0%B2%D0%BD%D1%8B%D0%BC+%D0%BB%D0%BE%D0%B4%D0%BA%D0%B0%D0%BC+%D0%B8+%D0%BC%D0%BE%D1%82%D0%BE%D1%80%D0%B0%D0%BC%22&lr=2

Не, мы конечно текст перепишем, но черт возми, где гарантия, что все не повториться
Никаких гарантий, пока Я не неучится определять первоисточник...
Разбивка текста страницы сайта-акцептора на анкоры внешних ссылок на данную страницу с других сайтов-доноров уже не работает (т.н. "тема Бурундука с SE")?
Если даже хотя бы частично еще жива - надеюсь поскорее убьете. Слишком многим методика известна. Хотя даже с ней у Яндекса алгоритм на мой взгляд работает лучше чем у Google. Может конкретно мне плохо везет, но тем не менее из личного опыта я сделал именно такие выводы.

Да на яндексе многое делается но не всегда в лучшую сторону. Но если как пишет автор будет находится настоящий первоисточник то это радует но ни кто 100 % гарантии не даст.

 100% - ый контент

ага, а бывает выложишь вот свою статью, а кто нить скопирует, у кого тИц и PR больше... и намного выше тебя в результатах поиска становится!
Интересное решение проблем перепечатки! Моя статья, размещенная на моем же сайте, сайте моей организации, мной же размещена. Перепечататывается другим сайтом, с указанием моей фамилии и сайта организации (почему-то не моего сайта). В поиске вводим: "Но, как оказалось дело не в операции, а в попоне. Стоило только снять попону, как мой котик вспомнил, какого он пола" В результате выскакивает сайт, который перепечатал МОЮ статью с сайта моей организации (напомню еще раз мною же размещеную), а мой сайт и сайт моей организации напрочь отсутствует. Какая вселенская справедливость! Позвольте узнать, почему сайты авторов забанены, а сайты, которые "слизали" и не одну статью в поиске? Или еще привести пример? Пожалуйста. Большое кол-во сайтов перепечатало авторские статьи с сайта www.korgorushi.ru Трудно быть меконгом ИСТОРИЯ ВОЗНИКНОВЕНИЯ ПОРОДЫ МЕКОНГСКИЙ БОБТЕЙЛ И еще около 15 статей. На публикацию каждой статьи на сайте получены разрешения авторов. Ан нет, оказывается этот сайт нужно банить, а другие остаются! Во как! В поиске: "Уже около 15 лет наш клуб РФОО «Коргоруши» занимается разведением меконгских бобтейлов" Нашлось 1100 страниц, и не одной с сайта, на котором статьи разместили авторы. Более того, такая надпись как "© Все права защищены. Перепечатка только с письменного согласия авторов" НИЧЕГО НЕ ЗНАЧИТ, КАК ДЛЯ МОЛОДЦОВ ИЗ ПС, правда и для тех, кто это все слизал. По крайней мере, ко мне ни кто не обращался для разрешения перепечатать. Но, я не против, пускай перепечатывают. Но за что же автора к ногтю-то? Каким образом это получается понятно. Тот, кто перепечатал давно свой сайт не обновлял, я же свой переодически перетряхиваю, обновляю. Ставлю или снимаю информацию, бывает перемещаю ее на другую страницу. Вот моя статья и оказывается "перепечатаной" с сайта "перепечатчика".Ее так робот определяет, как более "молодую", но с аналогичным содержанием, а значит плагиат чистой воды. Теперь еще свое авторство доказывать?

Не смотря на то, что Яндекс взял на себя обязательство ни за что не отвечать, все же в нашей стране законы главенствуют.

По существу у законопослушных граждан отнято право распространять свои информационные материалы и информацию о этих материалов через Яндекс. Нарушено право граждан на интеллектуальную собственность, и право ее распространять по своему усмотрению.

И совсем из ряда:

Яндекс вопреки закону самостоятельно определил, что владелец интеллектуальной собственности определяется машиной, на основании того, что автор разместил свою информацию позднее того, кто ее взял(своровал) без ведома и/или разрешения автора из других источников. Это уже попахивает клеветой на законопослушного гражданина.

Напомню. Право на интеллектуальную собственность, если кто-то усомнился в этом праве, доказывают в суде.

Вопрос: На каком основании Яндекс берет на себя право определять кто автор, а кто вор.

В суд, господа! В суд!

И почему, если я, автор, не против того, чтобы мои материалы размещались другими лицами, я еще должен доказывать, что автор.

И какого рожна Яндекс вмешивается в договор (условно) двух лиц, и решает кто из них кто? Если я не согласен, что кто-то слизал мою статейку, обращусь в суд.

Это мое право, а не право Яндекса.

У Яндекса есть обязательство, которое он взял на себя - распространять сведения о моей информации. А информация об авторе должна быть правдивой, и не на основании решения какой-то системы, использующую сотню факторов. Да хоть тысячу!

Поисковая система Яндекс взяла на себя безаппеляционное право разбираться, кто из владельцев сайтов является собственником интеллектуальной собственности, заключающейся в информации размещенной на сайтах, а кто фактически(по Яндексовски), вором этой собственности.

Во как!

Ни больше, ни меньше судебная интернет-система родилась.

И судья только один - его честь господин Яндекс!

Есть у нас басманное правосудие, а будет еще и яндексное правосудие. Тьфу!

Если Вы так боретесь за интеллектуальную собственность учите людей, что нужно делать в случае, если его обворовали. Да хоть и за плату. Юридические услуги не запрещены в нашей стране.