Приведём листинги файлов robots.txt

robots.txt Joomla 1.5

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

robots.txt Joomla 1.7

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

На сайте под управлением Joomla не индексируются изображения.

   Есть сервисы поиска по изображениям, которые увеличивают общее количество посетителей любого сайта на 15- 20%, и предоставляют удобный механизм визуального поиска по изображениям на сайтах. Например: Google Images, Yandex Images . Такие сайты обладают своим поисковым роботом, который «собирает» информацию о картинках и на Вашем сайте включительно. Только из-за неверной конфигурации файла robots.txt в Joomla эти поисковые роботы совершенно не индексируют картинки на сайтах под управлением cms joomla. Давайте разберёмся: почему так происходит? И решим проблему с индексацией изображений в cms joomla 1.5,1.7 (и даже 1.0).

   Казалось бы, из за чего? А теперь присмотримся, оба файла содержат строчку:

Disallow: /images/

   Её необходимо удалить. Теперь изображения недели через три начнут появляться в поисковой выдаче. Достаточно указать верный alt + title в теге img и написать несколько строчек с описанием содержимого картинки до или после изображения.

Не индексируются изображения в CCK K2:

CCK K2 – хранит свои картинки в папке media:

И опять, оба файла содержат запрет индексации папки media:

Disallow: /media/

Удаляем эту строку Disallow: /media/, или используем директиву Allow после строки Disallow: /media/

Allow: /media/k2/items/cache/*.jpg

Не индексируются изображения компонента Virtuemart

   Но даже после этого изображения товаров не будут индексироваться в компоненте Virtuemart и других компонентах, изображения которых находятся в папке /components. В чём же дело?

Disallow: /components/

В обоих файлах для Joomla 1.5 – 1.7 удаляем эту строчку. Или воспользуемся директивой Allow для разрешения индексации содержимого отдельных папок.

Не индексируются изображения в модулях Joomla

   А что же делать с модулями? Например, картинки, которые хранятся в кеше замечательного модуля для вывода кратких анонсов новостей с большой поддержкой различного рода компонентов gavick news pro также совсем не индексируются.

Находим строчку:

Disallow: /modules/

И удаляем.

   Приведём изменённый файл robots.txt с учётом вышесказанного для разрешения индексации картинок поисковыми роботами:

Robots.txt Joomla 1.5

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Robots.txt Joomla 1.7

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

   После внесения изменений в файлы robots.txt в случае с поисковым роботом по изображениям Google стоит подождать месяц, и он за это время проиндексирует Ваши изображения. В случае же с яндексом, если статей с изображениями немного: месяц, если на Вашем сайте размещено большое количество материалов - то немногим более месяца. Лучше сделать такую оптимизацию файла robots.txt раньше.

Склейка содержимого сайтов и распыление веса.

   Дело в том, что поисковые системы адрес Вашего сайта с www. и без www. воспринимают как два разных проекта. И могут отдельно индексировать как сайт с www., так и без. При этом одни страницы будут индексироваться только с www., другие – без www. Тоесть вес сайта в поисковых системах распыляется между двумя адресами. Поисковая система может показывать совершенно разные результаты в выдаче поисковых результатов для сайта с www., и без www. Позиции же сайта с www. и без www. будут совершенно разные, да и при этом гораздо ниже, чем могли быть на самом деле.

Как проверить «склейку сайта»?

   Заходим, например, на сайт cy-pr.com. В поле Для проверки введите адрес сайта в форму ниже вводим адрес Вашего сайта, и в результатах выдачи смотрим: склейка с … Если эта строка присутствует: значит проблема есть.

Обратите внимание: над данной проблемой актуально задумываться при создании нового сайта или если Ваш сайт содержит малое количество статей. Но когда Ваш сайт занимает ведущие позиции и содержит огромное количество материалов, советуем ничего не предпринимать по этому поводу. Так как после внесения изменений потребуется время на переиндексацию (а значит, и временная утрата позиций по одному из адресов вплоть до нескольких месяцев).

Как предотвратить склейку сайта:

   Для этого указываем основной адрес сайта с помощи директивы Host в robots.txt. Все остальные адреса сайта будут считаться всего лишь зеркалом и не будут принимать участие в поисковой выдаче, а содержимое будет всегда полностью индексироваться с подстановкой основного адреса:

Например:

Host: awesome-design.com

Учтите, что адрес сайта в этом случае указывается без протокола http://

Карта сайта:

   Для более быстрой и полной индексации сайта поисковыми роботами советуем Вам установить карту сайта. Например, бесплатный компонент xmap, который поддерживает огромное количество расширений, написанных под Joomla, и указать путь к карте сайта в robots.txt с помощью директивы Sitemap. При этом разработчики данного компонента уделили внимание описанным стандартам и требованиям со стороны поисковых систем и при добавлении карты сайта с помощью инструментов для веб мастера в яндекс и гугл проблем и ошибок не возникает:

Sitemap: http://awesome-design.com/index.php?option=com_xmap&sitemap=1&view=xml

Убираем «дублирование» содержимого. Запрещаем индексацию ajax запросов для Joomla 1.5.

   За это у нас отвечает файл index2.php. Который выдаёт содержимое для ajax запросов, по сути, дублируя основное содержимое, добавляем в robots.txt строчку:

Disallow: /index2.php

Исключаем из результатов поисковой выдачи технические страницы.

   Примечание автора: следующие правила приведены с учётом включённого в joomla чпу и сконфигурированного файла .htaccess для сервера Apache, или настроенных правил для работы rewrite engine у другого серверного п.о.

   Например, закрываем от индексации технические страницы, не несущие смысловой нагрузки и не участвующие в результатах поиска, а только создающие «поисковой шум». Дело в том, что поисковые системы относятся крайне негативно к таким страницам.

Для joomla это, например:

  •    Отправить страницу на email другу: такая ссылка индексируется для каждой новости и не закрыта через rel="nofollow".
  •    Результаты поиска по сайту
  •    Регистрация/Авторизация на сайте

   В результате количество «проиндексированных» страниц увеличивается в разы, а вот качество таких страниц падает. И можно попасть под одну из разновидностей банов. Или Ваши позиции в поисковой выдаче могут существенно «просесть».

   Добавляем следующие строки в robots.txt:

Joomla 1.5:

Disallow: /component/search/
Disallow: /component/mailto/
Disallow: /component/user/

Joomla 1.7:

Disallow: /component/mailto/
Disallow: /using-joomla/extensions/components/users-component/
Disallow: /using-joomla/extensions/components/search-component/

   Совет: чтобы закрыть от индексации все технические страницы и обнаружить максимальное их количество, Вы можете воспользоваться любым внешним сервером, который с учётом rel="nofollow", и noindex создаст карту Вашего сайта. Просто проверьте такую карту сайта и закройте «подозрительные» ссылки, не несущие смысловой нагрузки. Например, можно воспользоваться сервисом mysitemapgenerator, он совершенно бесплатен, поддерживает пропуск ссылок во время генерации карты сайта, закрытых через rel="nofollow" и noindex, и осуществляет отправку готовой карты сайта к Вам на email (нужно пройти регистрацию на сайте, да и всё).

Больше информации о веб технологиях можно узнать из нашего перечня всех статей на сайте:

Комментарии   

 
0 #10 Administrator 09.04.2013 17:42
Цитирую Ната:
а если у меня ссылки на страницу "Отправить ссылку..." имеют вид: /component/option,com_mailto/...., я так понимаю, мне директива Disallow: /component/mailto/ не поможет, так как в моих ссылках нет указанного отрезка текста? Мне нужно указывать Disallow: /component/option,com_mailto/ ?

Это похоже на стиль joomla 1.0.
Да, так должно работать.
Цитировать
 
 
0 #9 Ната 09.04.2013 17:31
а если у меня ссылки на страницу "Отправить ссылку..." имеют вид: /component/opti on,com_mailto/. ..., я так понимаю, мне директива Disallow: /component/mail to/ не поможет, так как в моих ссылках нет указанного отрезка текста? Мне нужно указывать Disallow: /component/opti on,com_mailto/ ?
Цитировать
 
 
+1 #8 Administrator 21.03.2012 22:33
Здесь нам поможетЦитирую dezm021:
Подскажите, как правильно будет закрыть страницы в robots, если имеются ссылки вида:

http://mysite.ru/kategoriya1/podkategoriya1/&offset=0

http://mysite.ru/kategoriya2/podkategoriya2/&offset=0

и т.д.

а оригинальная ссылка: http://mysite.ru/kategoriya1/podkategoriya1/

http://mysite.ru/kategoriya2/podkategoriya2/

и т.д.

Прописал в robots.txt, как Disallow: *&offset=0 но есть подозрения, что не правильно!

Здесь нам поможет для яндекса clean-param:

User-agent: Yandex
Clean-param: &offset=0 /
Clean-param: offset=0 /

Или же:

User-agent: Yandex
Clean-param: &offset=0 /*
Clean-param: offset=0 /*


А вот для гугла придется добавить строчку в <head></head>:

<link rel="canonical" href="http://my site.ru/kategor iya2/podkategor iya2/" />
Цитировать
 
 
+1 #7 dezm021 21.03.2012 22:10
Подскажите, как правильно будет закрыть страницы в robots, если имеются ссылки вида:

http://mysite.ru/kategoriya1/podkategoriya1/&offset=0

http://mysite.ru/kategoriya2/podkategoriya2/&offset=0

и т.д.

а оригинальная ссылка: http://mysite.ru/kategoriya1/podkategoriya1/

http://mysite.ru/kategoriya2/podkategoriya2/

и т.д.

Прописал в robots.txt, как Disallow: *&offset=0 но есть подозрения, что не правильно!
Цитировать
 
 
+1 #6 Administrator 17.02.2012 12:08
Alias - это "псевдоним". Каждый пункт меню имеет свои псевдонимы. Если все новости дублируются и при этом находятся на главной странице, то, теоретически, можно закрыть через robots.txt. Но, на практике, поисковик сам отфильтрует дубли. Пока категорий не много, это не критично и не скажется отрицательно на индексации Вашего сайта. Проблемы могут быть, когда подобных ссылок много. Поэтому советую закрыть аякс ссылки (для Joomla 1.5), и, если Вы используете, например, k2 или другой CCK или соц. компонент: то закрыть через rel="nofollow" календарь, теги, страницы материалов по пользователям: такие страницы создают оч. много дублей. Так же я бы советовал "выкинуть" страницы печати, ссылки на емейл и т.п. И проверить извне каким нибудь краулером Ваш сайт. Какую карту сайта он сформирует при использовании правил nofollow, noindex.
А вообще то есть более простой выход из ситуации, если Вы все же хотите закрыть дубли содержимого: перейдите в нужный пункт меню (в Joomla 2.5) -> Metadata Options (Настройки? Metadata) (в правой части экрана) - щелкните по названию - выпадающий список Robots - выберите noidnex, nofollow и сохраните.
А для 1.5 поиск не дал результатов. Ждите завтра плагин.
И еще примечание: если у Вас одно меню дублирует, например, другое (или есть подобные пункты). Для пунктов дублирующего меню выбирайте тип Псевдоним:)

Цитирую dezm:
Цитирую Administrator:
Или у Вас категории переопределены через меню? Как представлена структура сайта?


Существует два меню, первое (основное) располагается вверху страницы (главная|Услуги|О проекте|Отзывы|), второе меню – категории (SEO|SMO|Скачать|и т.п.|)
Проблема в том, что со всех категорий материалы выходят на главную страницу краткий обзор, и чем больше материала выходит, тем больше страниц на главной. Но, каждый материал выходит не только на главной, но и в своей категории (дублируеться), и точно так, же создаются страницы с точно таким, же текстом, как и на главной в категории. Как по мне это не совсем верно, получается тот же контент, только с другим url.

Цитирую Administrator:

Ведь, если вы не строите ЧПУ Joomla на основании alias и перелинковки меню, плохой индексацией категорий и материалов.


Если несложно объясните нубу что значить: "на основании alias"
Цитировать
 
 
0 #5 dezm 17.02.2012 01:39
Цитирую Administrator:
Или у Вас категории переопределены через меню? Как представлена структура сайта?


Существует два меню, первое (основное) располагается вверху страницы (главная|Услуги|О проекте|Отзывы|), второе меню – категории (SEO|SMO|Скачать|и т.п.|)
Проблема в том, что со всех категорий материалы выходят на главную страницу краткий обзор, и чем больше материала выходит, тем больше страниц на главной. Но, каждый материал выходит не только на главной, но и в своей категории (дублируеться), и точно так, же создаются страницы с точно таким, же текстом, как и на главной в категории. Как по мне это не совсем верно, получается тот же контент, только с другим url.

Цитирую Administrator:

Ведь, если вы не строите ЧПУ Joomla на основании alias и перелинковки меню, плохой индексацией категорий и материалов.


Если несложно объясните нубу что значить: "на основании alias"
Цитировать
 
 
0 #4 Administrator 16.02.2012 23:28
Не стоит закрывать страницы категорий, на мой взгляд. Или у Вас категории переопределены через меню? Как представлена структура сайта? Ведь, если вы не строите ЧПУ Joomla на основании alias и перелинковки меню, то такой способ может и аукнуться плохой индексацией категорий и их материалов.
Закрыть же можно используя спец символы. Например правило www.mysite.ru/categoriya1.* по идее должно закрыть все запросы, обращенные к этой категории.
Цитировать
 
 
0 #3 dezm 16.02.2012 14:21
Подскажите как закрыть от индексации страницы категорий. На сайте имеется несколько категорий и каждая категория имеет свои страницы.

Закрыть в robots.txt только саму категорию не выход, останутся еще и страницы, к примеру: www.mysite.ru/categoriya1.html?start=6 и т.п.

п.с. Стоит ли по Вашему закрывать категории от индексацци?
Цитировать
 
 
+2 #2 Administrator 14.02.2012 20:18
Буквально это значит:
Мы блокируем любые запросы к папке (вида) /component/sear ch/ которые содержат знак вопроса
/component/sear ch/*?
Например
/component/sear ch/index.php?search=создать сайт
Или же
/component/sear ch/?search=создать сайт

Здесь * обозначает любой символ
Довольно странная трактовка /*?component/se arch/, скорее всего для страниц, в которых SEF часть ЧПУ передается в виде запроса. Хотя, очень трудно представить такое ЧПУ в действии.
Цитировать
 
 
+1 #1 dezm 14.02.2012 14:26
Подскажите, что значить в robots.txt это значение: *?, к примеру:
/component/search/*? или
/*?component/search/
Цитировать
 

Добавить комментарий


Яндекс.Метрика