Все о robots.txt для новичков
Robots.txt является важным помощником во время создания сайта и seo оптимизации готового проекта. Данный файл всегда находится в корне Вашего сайта, он доступен на чтение, и каждая его инструкция поисковым роботам пишется с новой строки.
Рассмотрим несколько важных примеров работы с Robots.txt
- User-agent: — пишем разные правила для различных поисковых систем.Пример: User-agent: Yandex – задаст набор правил для Яндекса.Совет: Если хотите написать общие правила для всех поисковиков, используйте: User-agent: *
- Disallow: — или запрет на индексацию определённого пути/папки.
Что и зачем следует скрывать от индексации?
- Результаты поиска и ссылку на сам поиск
- Технические страницы:
- Регистрация,
- Напоминание логина/пароля,
- Формы: поделиться новостью,
- Формы: отправить ссылку на почту и подобные,
- Так же следует скрыть страницы, отвечающие например на ajax вопросы, чтобы не было дублирования информации.
Практической ценности такие страницы для раскрутки сайта не представляют. И при этом некоторые: например, результаты поиска, будут виновны в создании лишней нагрузки на сайт.
Будьте аккуратны с директивой Disallow. Disallow: / в течение недели выкинет все страницы вашего сайта из поисковых систем. Переиндексация может занять от двух до трёх недель.
Замечание: Allow: — директива не существует. Есть только Disallow
Замечание: если Вы даже не хотите ничего запрещать, считается необходимой одна пустая (без слеша!) директива Disallow:
User-agent: * Disallow: Host: www.example.com
- Sitemap: — указываем адрес карты сайта (и поисковой робот обойдёт Ваш сайт гораздо быстрее).
- Host: — указываем основной адрес Вашего сайта. Боремся со склейкой зеркал. А что же такое склейка сайта? Дело в том, что у Вашего сайта по крайней мере есть одно зеркало, помните, адреса сайтов пишутся как с www, так и без, для поисковых роботов это два разных сайта, как итог, неизвестно, как проиндексируется очередная новость или страница, с www или без, а в итоге Ваш сайт распыляет свой вес в поисковых системах.Совет: используйте данную директиву в robots.txt для новых сайтов, а для существующих, которые уже давно находятся на просторах интернета, явное указание этой директивы может повлечь переиндексацию содержимого (вплоть до нескольких недель выпадения из индекса поисковых систем).Замечание: не указывайте протокол в директиве host: просто впишите адрес сайта с www или без.
Пример: верно – Host: www.example.com, неверно: Host: http:// www.example.com