Клуб о поиске Яндекса

Задача для робота

knigaimen
29 апреля 2011, 17:56

Допустим: Я – поисковый робот.

*Задача стандартная: навести порядок на информационной помойке;  собрать миллиарды листов с текстом; упорядочить их по ключевым словам; оценить  информационную ценность каждой найденной страницы с целью ее дальнейшего  ранжирования.

*Вопрос:

 1. полезно ли мне для определения информационной значимости  текста учитывать не только источник (издательство, агентство, интернет-адрес и т.д.), но и непосредственное авторство этого текста?

2. есть ли способ автоматически определять авторство и защитить его от фальсификации?

 

23 комментария
Подписаться на комментарии к посту

Долго ждать модерации, так что начнем отвечать сами себе.

Технически задачу идентификации авторства можно попытаться решить путем регистрации персонального аккаунта в системе: каждый потенциальный автор получает уникальный идентификатор и личный профиль, в котором может указывать данные о себе (или не указывать).

Далее логично каждый материал на странице заключать в контейнер, а атрибутах которого указан идентификатор автора (микроразметка). В аккаунте создается список разрешенных URL, на которых размещены публикации оного автора.

В спорных ситуациях, когда идентификатор автора отсутствует или не разрешен в профиле явно, страница понижается в поисковой выдаче.

Плюс для ПС - возможность создания тематического рейтинга авторов (по типу тИЦ - учет кол-ва ссылок на тексты этого автора и кол-ва упоминаний его имени на других ресурсах). 

Второй плюс для ПС - на стр. поисковой выдачи можно дать пользователю  возможность просматривать профиль каждого автора (или указывать, что авторство не указано).

Плюс для авторов - возможность защиты от плагиата (хоть какая-то) и возможность продвижения личного бренда (как в книжном бизнесе).

 

Добрый день, Надежда.



Данные об оригинальности текста, как и многие другие, полезны для "определения информационной значимости  текста". Автоматические способы, конечно, существуют. Защитить от фальсификации позволяет разумное и аккуратное отношение вебмастеров к их оригинальным текстам.

da konesno ze,esli wi ne protiw...

Уважаемая Тири!

Речь не совсем об оригинальности текста. По крайней мере, не в том смысле, какой сейчас принято вкладывать в термин "оригинальность".

Речь о возможности использовать имя автора для предварительной оценки (для прогнозирования) качества текста.

Мы с мужем работаем в издателськом бизнесе с 1993 года. Вот как лично Вы выбираете книгу? На что обращаете внимание? На наличие в тексте ключевых слов?

Первое, на что обращают люди при выборе книги - это обложка, название, имя автора и только затем уже на сам текст. И практически НИКТО не обращает внимание на то, кто издал эту книгу.

В СМИ другой подход - там на первом месте стоит бренд издания, а бренд автора - на заднем плане. Но ведь И-нет - это не только СМИ?

По нашим наблюдениям сегодня в поисковых алгоритмах происходит неявная подмена понятий - ПС граммотно взвешивают "авторитетность" ресурса (то есть издателя), и игнорируют "авторитетность" непосредственного автора текста.

В сравнении с книгами это все равно что определять качество книги по издательству, а не по автору. Мол, "Война и мир"? Ну, конечно же это ерунда, - это же "АСТ"! Они в основном ерунду всякую штампуют... 

Доля резона в этом есть - мол, если издатель хороший, то уж он, наверное, и тексты будет отбирать тщательно  (тезис сомнителен и не всегда подтверждается опытом). Один и тот же автор может работать на разных ресурсах, а на одном и том же ресурсе может быть множество разных авторов.

Само понятие Авторства изначально задумывалось не для защиты авторских прав, а для использования имени автора как бренда. Чтобы иметь критерий для прогнозирования качества. Одно дело читать книгу, подписанную именем "Аристотель", и совсем другое - без подписи вообще.

Поэтому и нужен рейтинг не только URL-ресурсов, но и авторов. 

Этого сейчас в Сети и не хватает (по крайней мере, не заметно)... наше мнение...

Это точно, не заметно. Просто ресурсы, на которые работают журналисты не показывают авторов. Хочешь быть заметным автором, блоги в помощь, заключай договор с ресурсами, которые будут перепечатывать автора и ставить ссылку на его блог.

vicip, речь не идет о том, чего хочу я.

Моя мысль - для нормальной оценки качества контента необходимо учитывать автора (его авторитетность, наличие других работ, оценка его работ по прошлому опыту, стиль письма, тематика и т.д.) .

В издательском бизнесе это аксиома, и если ПС хотят добиться адекватной поисковой выдачи, не стоит игнорировать столь важный критерий, как имя автора. Вот и все. Повторяю - это нужно не столько для авторов, сколько для ПС (для более релевантного поиска). 

Ну а насчет СМИ - Вы, vicip, не совсем правы. В нормальных СМИ авторы указаны в большинстве статей. Безымянные статьи (если это не лента новостей) - удел школьной стенгазеты. 

Ну а уж если у автора большой статьи есть наработанное имя (бренд), то поверьте моему 18 летнему опыту - этот бренд ОБЯЗАТЕЛЬНО выдвинут на видное место, чтобы всем стало видно.

 

Удалённый пользователь
30 апреля 2011, 13:05

Мне очень близка позиция user Надежда. Вместе с тем, смею предположить, что сделать это одномоментно довольно-таки затруднительно.

Спасибо, sarmat!

А что касается времени - так это ведь любое обновление алгоритмов требует времени и терпения.

На одном из форумов юзер с ником rVv выразил мысль, что авторство текстов (не путать с авторством страниц) можно ЯВНО обозначать с помощью микроразметки.

Здесь главное чтобы ПС приняли решение начать учитывать ЯВНО обозначенное авторство... Без этого Сеть останется для ПС "эвристически-безымянной"...


К чему весь этот сыр-бор?

Не поленился посмотреть страничку автора статьи... Сильно сомневаюсь, что на сайте с гороскопами размещены тексты, авторство которых необходимо защищать.

В этом-то и беда, что по мнению некоторых защищать нужно только то, что нравится им лично. А не нравится - так воруй на здоровье - так? Вы, кстати, тоже кому-то не нравитесь. И Ваше имущество, возможно, тоже... А на тех сайтах выложено несколько книг, общим числом 3 млн. знаков. Попробуйте написать хоть одну - на любую тему...

К тому же, уважаемый, Вы читали тему плохо - речь не о защите чьих то прав, а о том, что без учета имени автора (его "авторитетности", других работ, тематики и т.д., читающий да прочтет выше...) нельзя адекватно оценить текст. 

Вот Вы сами - посмотрели же, что я за "автор", чтобы спрогнозировать для себя качество моих текстов? Так почему бы и роботу этого не делать?

 

Допустим: Я – поисковый робот.
У Вас, мадам, мания величия.

 

А по делу есть что сказать?

Есть!

Беда, коль пироги начнет печи сапожник,
А сапоги тачать пирожник.
 

 

Послушаете, helios55, этот клуб называется "Яндекс.Поиск" - а Вы чего ищете? Ссоры? Если есть что сказать по делу, говорите.

Ну а если не умеете обходиться без оскорблений, то попробуйте поискать себя на Рамблере - там таких много.

Все уже сказано. Почти...

Есть вещи, которые человеку объяснить нельзя. Он их либо понимает, либо нет.
 А.Райкин.

 

Поскольку дискуссия стала уходить в сторону, попробую еще раз кратко обозначить свой вопрос:

1. В издательском бизнесе прогнозирование качества текста строится, в частности, на основе оценки личности автора - что он написал еще, в каком стиле, в какой тематике, каких успехов добился. Отсюда делается прогноз, чего от него можно ожидать. Это облегчает работу редатора по подбору материалов в сборник, серию и т.д.

2. Задачи ПС при формировании подборки ресурсов, релевантных тому или иному запросу, во многом схожи с редакторскими.

Отсюда и вопрос - планируется ли в поисковых алгоритмах Яндекса использовать что-то вроде "индекса цитирования" не для интернет-ресурсов, а для коткретных авторов (F.E. аИЦ - "авторский Индекс Цитирования")? 

На наш взгляд, это было бы полезно как для поиска, так и для самих авторов.

Тут вот нашли в одной старой статье Ильи Сеголовича (2002 год,  http://download.yandex.ru/company/iworld-3.pdf ) интересную цитату по поднятной теме:

"внетекстовые факторы играют не меньшую, а порой и
бо́льшую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее
авторов
– все эти факторы невозможно сбрасывать со счета."

Почему же эта идея - об учете цитируемости авторов (мы бы, все-таки, уточнили - авторов текста, а не страницы) - не получила своего развития?

Или в алгоритмах Яндекса заложены какие-то "чудесные" и тщательно скрываемые от широкой публики способы эвристического определения авторства без его явного обозначения в теле документа? На наш взгляд (ИМХО) постепенное внедрение в имеющиеся HTML-стандарты необязательного атрибута, ЯВНО обозначающего авторство, было бы сто крат полезнее любых эвристических методов.

Очень хотелось бы услышать мнение по этому поводу со стороны команды Яндекса...

 

ekaterinavasilievna
4 мая 2011, 12:18

Где гарантия, что под именем известного автора не начнут писать все, кому не лень?

Гарантия там же, где и сейчас - суд. Явно обозначенное авторство облегчает поиск нарушителей и предъявление им претензий (в том числе и со стороны прокуратуры, так как нарушения в сфере авторского права предусмотрены не только Гражданским кодексом, но и Уголовным).

Во-вторых, выше уже говорилось о возможности открытия каждым автором (по желанию) персон. аккаунта с присвоением уникального идентификатора. 

В этом смысле Поисковикам будет гораздо легче отследить нелегальный контент, чем, к примеру, в книжном бизнесе - где плагиат приходится отслеживать в ручную.

 

ekaterinavasilievna
4 мая 2011, 20:11

Имя и фамилия автора, к сожалению, не уникальны.

Поддерживаю идею персональных аккаунтов. Можно использовать учетные записи соц.сетей.

Вес автора должен определяться постоянством его творческих интересов.

Все так, но это - вопрос техники. При правильной постановке задачи решение может быть найдено максимум за пару-тройку лет. И решение такое, кторое будет выгодно всем - и Поисковым Системам, и пользователям, и авторам (в том числе и начинающим). 

Жаль только, что Яндекс на эту тему говорить, похоже, не хочет. Мы уже с осени пытаемся достучаться и до них, и до Гугла. Толку - пока немного...

наивные Вы люди..... техническая поддержка яндекса это просто способ всех вежливо посылать на Х..

 

Неужто Вам не понятно.. незнаю, мне сразу видно беспринципных, бессовестных и двуличных людей

Уважаемые работники Яндекса! Гугл все-таки вводит учет авторства посредством микроразметки (см. http://googlewebmastercentral.blogspot.com/2011/06/introducing-schemaorg-search-engines.html и http://schema.org/ )

Нам кажется - это ОЧЕНЬ полезно. Хотелось бы услышать ваше мнение...