Методы избавления от дублированной информации
Причины появления дублированного контента. Поиск дублированного контента на сайте. Использование мета-тега robots и файла robots.txt для закрытия контента от индексирования. Специалисты, работающие в сфере создания и продвижения сайтов, часто сталкиваются с проблемой появления дублированной информации.
Поисковые роботы негативно относятся к неуникальному контенту. Это чревато занижением позиций сайта в поисковой выдаче. Причинами возникновения дублирования контента могут быть:
- Служебные страницы;
- Страницы, предназначенные для распечатки;
- RSS-ленты новостей;
- Контент системы для управления сайтом.
Проверка контента Web-cайта на дублированную информацию
Проверить наличие в интернете страниц, дублирующих страницы вашего сайта, можно следующими способами:
- Применяя бесплатные программы проверки уникальности текстов: eTXT Анитплагиат, advego plagiatus, MonsterAntiplagiat;
- Проверка на уникальность в онлайн-сервисах: istio.com, antiplagiat.ru, miratools.ru, copyscape.ru и др.;
- С помощью самих поисковых систем.
Чтобы найти дублированный контент, в поиске Яндекса надо вписать в строку «я ищу» название проверяемой страницы. Затем в расширенном поиске в строке «на сайте» необходимо написать название вашего ресурса. После нажатия кнопки «найти» поисковик покажет все страницы, имеющие дублированный контент.
Удаление и скрытие дублированного контента
Избавляться от дублированной информации можно просто удаляя часть контента, который имеет дубликаты в сети. Но если такое удаление может повредить полноценности сайта, то необходимо закрывать текстовые данные от индексации поисковыми роботами. Мета-тег «robots» в html-коде сайта. Данный мета-тег имеет следующие атрибуты:
- index — индексировать;
- all — индексировать все;
- follow — учитывать ссылки;
- nofollow — ссылки не учитывать;
- all — индексировать все;
- none — не индексировать ничего.
Данный тег прописывается для каждой страницы, закрывая дублированные. Также им можно закрыть от индексации ссылки.
Файл «robots.txt»
Это файл, расположенный в корневой папке ресурса. В нем содержится информация, указывающая роботу-поисковику на запрет индексации страниц или части контента. Также он дает рекомендации по соблюдению интервала между скачиваниями контента с web-сервера.
Появление дублированного контента на сайте можно предусмотреть, если своевременно проводить его техническую оптимизацию, не осложняя продвижение ресурса.