Joomla — оптимизируем robots.txt
Не знаю, о чём думали программисты проекта Joomla, когда составляли robots.txt. Его неграмотная организация становится причиной запрета индексирования части содержимого, например, полным отказом от индексирования изображений на Вашем сайте. Между тем, отсутствуют и правила для закрытия индексации технических страниц.
Возникает ещё несколько проблем того или иного рода с индексацией содержимого сайта под управлением Joomla CMS. В этой статье мы поделимся с Вами решением проблем и обходом «подводных камней», связанных с раскруткой сайта на Joomla 1.5,1.7, и возникающих по вине файла robots.txt. Приведём листинги файлов robots.txt:
robots.txt Joomla 1.5
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
robots.txt Joomla 1.7
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/
На сайте под управлением Joomla не индексируются изображения
Есть сервисы поиска по изображениям, которые увеличивают общее количество посетителей любого сайта на 15- 20%, и предоставляют удобный механизм визуального поиска по изображениям на сайтах. Например: Google Images, Yandex Images.
Такие сайты обладают своим поисковым роботом, который «собирает» информацию о картинках и на Вашем сайте включительно. Только из-за неверной конфигурации файла robots.txt в Joomla эти поисковые роботы совершенно не индексируют картинки на сайтах под управлением cms joomla.
Давайте разберёмся: почему так происходит? И решим проблему с индексацией изображений в cms joomla 1.5,1.7 (и даже 1.0). Казалось бы, из-за чего? А теперь присмотримся, оба файла содержат строчку:
Disallow: /images/
Её необходимо удалить. Теперь изображения недели через три начнут появляться в поисковой выдаче. Достаточно указать верный alt + title в теге img и написать несколько строчек с описанием содержимого картинки до или после изображения.
Не индексируются изображения в CCK K2
CCK K2 – хранит свои картинки в папке media, и опять, оба файла содержат запрет индексации папки media:
Disallow: /media/
Удаляем эту строку Disallow: /media/, или используем директиву Allow после строки Disallow: /media/
Allow: /media/k2/items/cache/*.jpg
Не индексируются изображения компонента Virtuemart
Но даже после этого изображения товаров не будут индексироваться в компоненте Virtuemart и других компонентах, изображения которых находятся в папке /components. В чём же дело?
Disallow: /components/
В обоих файлах для Joomla 1.5 – 1.7 удаляем эту строчку. Или воспользуемся директивой Allow для разрешения индексации содержимого отдельных папок.
Не индексируются изображения в модулях Joomla
А что же делать с модулями? Например, картинки, которые хранятся в кеше замечательного модуля для вывода кратких анонсов новостей с большой поддержкой различного рода компонентов gavick news pro также совсем не индексируются. Находим строчку:
Disallow: /modules/
И удаляем. Приведём изменённый файл robots.txt с учётом вышесказанного для разрешения индексации картинок поисковыми роботами:
Robots.txt Joomla 1.5
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
Robots.txt Joomla 1.7
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/
После внесения изменений в файлы robots.txt в случае с поисковым роботом по изображениям Google стоит подождать месяц, и он за это время проиндексирует Ваши изображения. В случае же с яндексом, если статей с изображениями немного: месяц, если на Вашем сайте размещено большое количество материалов — то немногим более месяца. Лучше сделать такую оптимизацию файла robots.txt раньше.
Склейка содержимого сайтов и распыление веса
Дело в том, что поисковые системы адрес Вашего сайта с www. и без www. воспринимают как два разных проекта. И могут отдельно индексировать как сайт с www., так и без. При этом одни страницы будут индексироваться только с www., другие – без www. То есть вес сайта в поисковых системах распыляется между двумя адресами.
Поисковая система может показывать совершенно разные результаты в выдаче поисковых результатов для сайта с www., и без www. Позиции же сайта с www. и без www. будут совершенно разные, да и при этом гораздо ниже, чем могли быть на самом деле.
Как проверить «склейку сайта»?
Заходим на сайт, в поле Для проверки введите адрес сайта в форму ниже вводим адрес Вашего сайта, и в результатах выдачи смотрим: склейка с … Если эта строка присутствует: значит проблема есть.
Над данной проблемой актуально задумываться при создании нового сайта или если Ваш сайт содержит малое количество статей. Но когда Ваш сайт занимает ведущие позиции и содержит огромное количество материалов, советуем ничего не предпринимать по этому поводу. Так как после внесения изменений потребуется время на переиндексацию (а значит, и временная утрата позиций по одному из адресов вплоть до нескольких месяцев).
Как предотвратить склейку сайта
Для этого указываем основной адрес сайта с помощи директивы Host в robots.txt. Все остальные адреса сайта будут считаться всего лишь зеркалом и не будут принимать участие в поисковой выдаче, а содержимое будет всегда полностью индексироваться с подстановкой основного адреса:
Например:
Host: awesome-design.com
Учтите, что адрес сайта в этом случае указывается без протокола http://
Карта сайта
Для более быстрой и полной индексации сайта поисковыми роботами советуем Вам установить карту сайта. Например, бесплатный компонент xmap, который поддерживает огромное количество расширений, написанных под Joomla, и указать путь к карте сайта в robots.txt с помощью директивы Sitemap.
При этом разработчики данного компонента уделили внимание описанным стандартам и требованиям со стороны поисковых систем и при добавлении карты сайта с помощью инструментов для веб-мастера в яндекс и гугл проблем и ошибок не возникает:
Sitemap: http://awesome-design.com/index.php?option=com_xmap&sitemap=1&view=xml
Убираем «дублирование» содержимого. Запрещаем индексацию ajax запросов для Joomla 1.5
За это у нас отвечает файл index2.php. Который выдаёт содержимое для ajax запросов, по сути, дублируя основное содержимое, добавляем в robots.txt строчку:
Disallow: /index2.php
Исключаем из результатов поисковой выдачи технические страницы
Примечание автора: следующие правила приведены с учётом включённого в joomla чпу и сконфигурированного файла .htaccess для сервера Apache, или настроенных правил для работы rewrite engine у другого серверного п.о.
Например, закрываем от индексации технические страницы, не несущие смысловой нагрузки и не участвующие в результатах поиска, а только создающие «поисковой шум». Дело в том, что поисковые системы относятся крайне негативно к таким страницам.
Для joomla это, например:
- Отправить страницу на email другу: такая ссылка индексируется для каждой новости и не закрыта через rel=»nofollow»;
- Результаты поиска по сайту;
- Регистрация/Авторизация на сайте.
В результате количество «проиндексированных» страниц увеличивается в разы, а вот качество таких страниц падает. И можно попасть под одну из разновидностей банов. Или Ваши позиции в поисковой выдаче могут существенно «просесть». Добавляем следующие строки в robots.txt:
Joomla 1.5:
Disallow: /component/search/ Disallow: /component/mailto/ Disallow: /component/user/
Joomla 1.7:
Disallow: /component/mailto/ Disallow: /using-joomla/extensions/components/users-component/ Disallow: /using-joomla/extensions/components/search-component/
Совет: чтобы закрыть от индексации все технические страницы и обнаружить максимальное их количество, Вы можете воспользоваться любым внешним сервером, который с учётом rel=»nofollow», и noindex создаст карту Вашего сайта. Просто проверьте такую карту сайта и закройте «подозрительные» ссылки, не несущие смысловой нагрузки.
Например, можно воспользоваться сервисом mysitemapgenerator, он совершенно бесплатен, поддерживает пропуск ссылок во время генерации карты сайта, закрытых через rel=»nofollow» и noindex, и осуществляет отправку готовой карты сайта к Вам на email (нужно пройти регистрацию на сайте, да и всё).