Joomla — оптимизируем robots.txt

Joomla — оптимизируем robots.txt изображение поста

Не знаю, о чём думали программисты проекта Joomla, когда составляли robots.txt. Его неграмотная организация становится причиной запрета индексирования части содержимого, например, полным отказом от индексирования изображений на Вашем сайте. Между тем, отсутствуют и правила для закрытия индексации технических страниц.

Возникает ещё несколько проблем того или иного рода с индексацией содержимого сайта под управлением Joomla CMS. В этой статье мы поделимся с Вами решением проблем и обходом «подводных камней», связанных с раскруткой сайта на Joomla 1.5,1.7, и возникающих по вине файла robots.txt. Приведём листинги файлов robots.txt:

robots.txt Joomla 1.5

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

robots.txt Joomla 1.7

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

На сайте под управлением Joomla не индексируются изображения

Есть сервисы поиска по изображениям, которые увеличивают общее количество посетителей любого сайта на 15- 20%, и предоставляют удобный механизм визуального поиска по изображениям на сайтах. Например: Google Images, Yandex Images.

Такие сайты обладают своим поисковым роботом, который «собирает» информацию о картинках и на Вашем сайте включительно. Только из-за неверной конфигурации файла robots.txt в Joomla эти поисковые роботы совершенно не индексируют картинки на сайтах под управлением cms joomla.

Давайте разберёмся: почему так происходит? И решим проблему с индексацией изображений в cms joomla 1.5,1.7 (и даже 1.0). Казалось бы, из-за чего? А теперь присмотримся, оба файла содержат строчку:

Disallow: /images/

Её необходимо удалить. Теперь изображения недели через три начнут появляться в поисковой выдаче. Достаточно указать верный alt + title в теге img и написать несколько строчек с описанием содержимого картинки до или после изображения.

Не индексируются изображения в CCK K2

CCK K2 – хранит свои картинки в папке media, и опять, оба файла содержат запрет индексации папки media:

Disallow: /media/

Удаляем эту строку Disallow: /media/, или используем директиву Allow после строки Disallow: /media/

Allow: /media/k2/items/cache/*.jpg

Не индексируются изображения компонента Virtuemart

Но даже после этого изображения товаров не будут индексироваться в компоненте Virtuemart и других компонентах, изображения которых находятся в папке /components. В чём же дело?

Disallow: /components/

В обоих файлах для Joomla 1.5 – 1.7 удаляем эту строчку. Или воспользуемся директивой Allow для разрешения индексации содержимого отдельных папок.

Не индексируются изображения в модулях Joomla

А что же делать с модулями? Например, картинки, которые хранятся в кеше замечательного модуля для вывода кратких анонсов новостей с большой поддержкой различного рода компонентов gavick news pro также совсем не индексируются. Находим строчку:

Disallow: /modules/

И удаляем. Приведём изменённый файл robots.txt с учётом вышесказанного для разрешения индексации картинок поисковыми роботами:

Robots.txt Joomla 1.5

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Robots.txt Joomla 1.7

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

После внесения изменений в файлы robots.txt в случае с поисковым роботом по изображениям Google стоит подождать месяц, и он за это время проиндексирует Ваши изображения. В случае же с яндексом, если статей с изображениями немного: месяц, если на Вашем сайте размещено большое количество материалов — то немногим более месяца. Лучше сделать такую оптимизацию файла robots.txt раньше.

Склейка содержимого сайтов и распыление веса

Дело в том, что поисковые системы адрес Вашего сайта с www. и без www. воспринимают как два разных проекта. И могут отдельно индексировать как сайт с www., так и без. При этом одни страницы будут индексироваться только с www., другие – без www. То есть вес сайта в поисковых системах распыляется между двумя адресами.

Поисковая система может показывать совершенно разные результаты в выдаче поисковых результатов для сайта с www., и без www. Позиции же сайта с www. и без www. будут совершенно разные, да и при этом гораздо ниже, чем могли быть на самом деле.

Как проверить «склейку сайта»?

Заходим на сайт, в поле Для проверки введите адрес сайта в форму ниже вводим адрес Вашего сайта, и в результатах выдачи смотрим: склейка с … Если эта строка присутствует: значит проблема есть.

Над данной проблемой актуально задумываться при создании нового сайта или если Ваш сайт содержит малое количество статей. Но когда Ваш сайт занимает ведущие позиции и содержит огромное количество материалов, советуем ничего не предпринимать по этому поводу. Так как после внесения изменений потребуется время на переиндексацию (а значит, и временная утрата позиций по одному из адресов вплоть до нескольких месяцев).

Как предотвратить склейку сайта

Для этого указываем основной адрес сайта с помощи директивы Host в robots.txt. Все остальные адреса сайта будут считаться всего лишь зеркалом и не будут принимать участие в поисковой выдаче, а содержимое будет всегда полностью индексироваться с подстановкой основного адреса:

Например:

Host: awesome-design.com

Учтите, что адрес сайта в этом случае указывается без протокола http://

Карта сайта

Для более быстрой и полной индексации сайта поисковыми роботами советуем Вам установить карту сайта. Например, бесплатный компонент xmap, который поддерживает огромное количество расширений, написанных под Joomla, и указать путь к карте сайта в robots.txt с помощью директивы Sitemap.

При этом разработчики данного компонента уделили внимание описанным стандартам и требованиям со стороны поисковых систем и при добавлении карты сайта с помощью инструментов для веб-мастера в яндекс и гугл проблем и ошибок не возникает:

Sitemap: http://awesome-design.com/index.php?option=com_xmap&sitemap=1&view=xml

Убираем «дублирование» содержимого. Запрещаем индексацию ajax запросов для Joomla 1.5

За это у нас отвечает файл index2.php. Который выдаёт содержимое для ajax запросов, по сути, дублируя основное содержимое, добавляем в robots.txt строчку:

Disallow: /index2.php

Исключаем из результатов поисковой выдачи технические страницы

Примечание автора: следующие правила приведены с учётом включённого в joomla чпу и сконфигурированного файла .htaccess для сервера Apache, или настроенных правил для работы rewrite engine у другого серверного п.о.

Например, закрываем от индексации технические страницы, не несущие смысловой нагрузки и не участвующие в результатах поиска, а только создающие «поисковой шум». Дело в том, что поисковые системы относятся крайне негативно к таким страницам.

Для joomla это, например:

  • Отправить страницу на email другу: такая ссылка индексируется для каждой новости и не закрыта через rel=»nofollow»;
  • Результаты поиска по сайту;
  • Регистрация/Авторизация на сайте.

В результате количество «проиндексированных» страниц увеличивается в разы, а вот качество таких страниц падает. И можно попасть под одну из разновидностей банов. Или Ваши позиции в поисковой выдаче могут существенно «просесть». Добавляем следующие строки в robots.txt:

Joomla 1.5:

Disallow: /component/search/
Disallow: /component/mailto/
Disallow: /component/user/

Joomla 1.7:

Disallow: /component/mailto/
Disallow: /using-joomla/extensions/components/users-component/
Disallow: /using-joomla/extensions/components/search-component/

Совет: чтобы закрыть от индексации все технические страницы и обнаружить максимальное их количество, Вы можете воспользоваться любым внешним сервером, который с учётом rel=»nofollow», и noindex создаст карту Вашего сайта. Просто проверьте такую карту сайта и закройте «подозрительные» ссылки, не несущие смысловой нагрузки.

Например, можно воспользоваться сервисом mysitemapgenerator, он совершенно бесплатен, поддерживает пропуск ссылок во время генерации карты сайта, закрытых через rel=»nofollow» и noindex, и осуществляет отправку готовой карты сайта к Вам на email (нужно пройти регистрацию на сайте, да и всё).

Комментарии