Клуб о поиске Яндекса

Дублирование страниц в индексации яндекса

chanel232
17 июня 2013, 19:42

Помогите пожалуйста настроить файл robots.  у меня  проблема индексирует дубли некоторых страниц сайта , не знаю как правильно их закрыть от роботов вот список дублей страниц не нужных для индексации:  

 

/component/content/article?id=29 ,

/ekskursii?id=30

/surfing?id=30

/?id=29

/shkola?id=30

/index.php/features /component/content/article?id=30

/index.php/typography

/index.php/joomla/member-login?view=reset

/index.php/features/menu-options

/?id=30

/index.php/tutorials/installation

/index.php/features/extensions

balisurfing.ru/shkola/zabronirovat-obuchenie?view=message&layout=message&pf=3&redirect_on_success=

это мой файл  joomla 2.5  Rocket Theme 

# If the Joomla site is installed within a folder such as at

# e.g. www.example.com/joomla/ the robots.txt file MUST be

# moved to the site root at e.g. www.example.com/robots.txt

# AND the joomla folder name MUST be prefixed to the disallowed

# path, e.g. the Disallow rule for the /administrator/ folder

# MUST be changed to read Disallow: /joomla/administrator/

#

# For more information about the robots.txt standard, see:

http://www.robotstxt.org/orig.html

#

# For syntax checking, see:

http://www.sxw.org.uk/computing/robots/check.html


User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

 

Disallow: /tmp/

какие нужно добавить строчки в файл ? Зарание благодарю за помощь!  

 

 

8 комментариев
Подписаться на комментарии к посту

Сайт у вас давно? если не очень может вам для начала Включить SEF (ЧПУ), а потом смотреть robot.txt

А вообще моё мнение вам с этим вопросом на форум http://joomlaforum.ru

Кровельщики
20 июня 2013, 09:19

у меня тоже подобные проблемы с сайтом

http://xn--b1agjagdfvr8g6a.kiev.ua

Вот эту строчку точно удалять - Disallow: /images/ она картинки запрещает индексировать, а вот как дубли убрать я не знаю, тоже мучаюсь.

Мучился долго, разобрался! Проблема пустяковая! Сайт на JOOMLA!

Короче: запись Disallow: /images/ надо удалить из robotsон запрещает индексацию картинок!

Как писали, делайте обезательно SEFи окончание .html(человек понятные URL)  В joomlaв общих настройках есть это. При создании меню или материала смотрите алиас он сам создается или можете сами создать.

Вот мой robots.txt

User-agent: *

Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1 (разрешает индекс карты сайта) если так не пропишете то карта тоже блокируется от индексации.

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*component*  запрещает дубли

Disallow: /xmlrpc/

Disallow: /*uncategorised*  запрещает дубли

Disallow: /index.php?*  запрещает дубли

Disallow: /index.php     запрещает дубли

Crawl-delay: 3

Host: www.вашсайт.ru

Sitemap: http://www.Вашсайт.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1

 

В панели веб мастер в разделе настройка индексирования перейдите в анализ robots.txt

создайте robotsи экспериментируйте, прям в этой форме окна.

не забывайте добавлять дубли в список URLвам сразу покажет, какие заблокируются.

Как сделаете файл robotsне забудьте поменять на сервере.

Пусть новые URLсначала проиндексируются потом удаляйте дубли с право колонка списком (удалить URL)

 

 

Проверка robotsлюбого сайта делается так ( www.сайт.ru/robots.txt)

Вот эту фигню уберите из robots

# If the Joomla site is installed within a folder such as at

# e.g. www.example.com/joomla/ the robots.txt file MUST be

# moved to the site root at e.g. www.example.com/robots.txt

# AND the joomla folder name MUST be prefixed to the disallowed

# path, e.g. the Disallow rule for the /administrator/ folder

# MUST be changed to read Disallow: /joomla/administrator/

#

# For more information about the robots.txt standard, see:

http://www.robotstxt.org/orig.html

#

# For syntax checking, see:

http://www.sxw.org.uk/computing/robots/check.html

Большое спасибо за ответы ! 

проблему решил добавлением стоки

Disallow: /*?

а при записи

Disallow: /index.php 

сайт вообше выпадает из рейтинга яндекс !!! 

Что бы убрать index.php, в файл .htaccess вставить

########## Begin - Перенаправление index.php на /

## Примечание: Изменените example.com на свой домен

RewriteCond %{THE_REQUEST} !^POST

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/

RewriteCond %{SERVER_PORT}>s ^(443>(s)|[0-9]+>s)$

RewriteRule ^index\.php$ http%2://example.com/$1 [R=301,L]

## Если приведенный выше код выдает ошибку 500, изменить [R=301,L] на [R,L]

########## End - Перенаправление index.php на / 

Василиса
17 июля 2013, 15:32

у меня такая же небольшая проблема

Кровельщики
3 ноября 2015, 07:07

у меня яндекс кровельный форум по странному индексирует. Вместо главной в поиске даёт глубоко вложенную страницу, дублей как обычно накидал, жесть