1. User-agent: - пишем разные правила для различных поисковых систем.

    Пример: User-agent: Yandex – задаст набор правил для Яндекса.

    Совет: Если хотите написать общие правила для всех поисковиков, используйте: User-agent: *

  2. Disallow: - или запрет на индексацию определённого пути/папки.

    Что и зачем следует скрывать от индексации?

    • Результаты поиска и ссылку на сам поиск
    • Технические страницы:
      • регистрация,
      • напоминание логина/пароля,
      • формы: поделиться новостью,
      • формы: отправить ссылку на почту и подобные,
    • так же следует скрыть страницы, отвечающие например на ajax вопросы, чтобы не было дублирования информации.

    Практической ценности такие страницы для раскрутки сайта не представляют. И при этом некоторые: например, результаты поиска, будут виновны в создании лишней нагрузки на сайт.

    Замечание: будьте аккуратны с директивой Disallow. Disallow: / в течение недели выкинет все страницы вашего сайта из поисковых систем. Переиндексация может занять от двух до трёх недель.

    Замечание: Allow: - директива не существует. Есть только Disallow

    Замечание: если Вы даже не хотите ничего запрещать, считается необходимой одна пустая (без слеша!) директива Disallow:

    User-agent: *
    Disallow:
    Host: www.example.com
    
  3. Sitemap: - указываем адрес карты сайта (и поисковой робот обойдёт Ваш сайт гораздо быстрее).
  4. Host: - указываем основной адрес Вашего сайта. Боремся со склейкой зеркал. А что же такое склейка сайта? Дело в том, что у Вашего сайта по крайней мере есть одно зеркало, помните, адреса сайтов пишутся как с www, так и без, для поисковых роботов это два разных сайта, как итог, неизвестно, как проиндексируется очередная новость или страница, с www или без, а в итоге Ваш сайт распыляет свой вес в поисковых системах.

    Совет: используйте данную директиву в robots.txt для новых сайтов, а для существующих, которые уже давно находятся на просторах интернета, явное указание этой директивы может повлечь переиндексацию содержимого (вплоть до нескольких недель выпадения из индекса поисковых систем).

    Замечание: не указывайте протокол в директиве host: просто впишите адрес сайта с www или без

    Пример: верноHost: www.example.com, неверно: Host: http:// www.example.com

  Более подробно о robots.txt вы можете прочесть здесь:

Больше информации о веб технологиях можно узнать из нашего перечня всех статей на сайте:

Добавить комментарий


Яндекс.Метрика