Отправить заявку

Заполните поля ниже, и мы свяжемся с вами в ближайшее время.
Fill in the fields below and we will contact you shortly.
 
1 + 17 =
Решите эту простую математическую задачу и введите результат. Например, для 1+3, введите 4.

Как избежать повторяющегося контента с помощью файла robots.txt и META-тегов

Повторяющееся содержание одна из проблем с который мы постоянно сталкиваемся, предлагая услуги по поисковой оптимизации. Если поисковые системы определяют, что ваш сайт содержит похожий контент, то это может стать причиной его пенализации или даже исключения из индекса. К счастью, это проблема легко решаема.

Ваше самое главное оружие против повторяющегося контента может быть найдено в «протоколе исключений для поисковых роботов», который в данный момент адаптирован для всех основных поисковиков.

Существует два пути контролирования поисковых роботов, индексирующих ваш сайт.

1. Файл исключения роботов или robots.txt и
2. Robots

тэг

Файл исключения роботов (robots.txt)

Это самый обычный текстовый файл, созданный в Notepad. Созданный файл вы должны выгрузить в корневую директорию вашего сайта, т.е. www.yourwebsite.com/robots.txt. Перед тем, как поисковые боты индексируют ваш сайт они ищут этот файл, который сообщает им как именно индексировать содержимое сайта.

Использование файла robots.txt наиболее подходит для статических сайтов или для исключения каких-то определенных страниц динамических сайтов. Если страницы вашего сайта в большинстве своем создаются динамически, то рассмотрите использование <META>-тега robots.

Создание вашего файла robots.txt

1-й сценарий

Если вы хотите создать один файл для роботов всех поисковых систем, чтобы они полностью индексировали ваш сайт, то файл robots.txt должен содержать следующие инструкции:

Пояснение

Использование астериска (*) в директиве User-agent подразумевает, что файл robots.txt применим ко всем поисковым роботам. Пустое значение директивы Disallow позволяет индексировать все страницы сайта.

2-й сценарий

Если вы хотите создать один файл для роботов всех поисковых систем и запретить индексацию файлов в директориях faq, cgi-bin, images и указанной страницы faqs.html находящейся в корневой директории сайта, то robots.txt должен содержать следующее:

Пояснение

Использование астериска (*) в директиве User-agent подразумевает, что файл robots.txt применим ко всем поисковым роботам. Запрет доступа к каталогам и определенным страницам осуществляется указанием таких ресурсов в директиве Disallow. После чего указанные ресурсы не будут индексироваться ни одним поисковым роботом.

3-й сценарий

Если вы хотите создать файл, который будет применим только к роботу Google (googlebot) и запретить индексацию файлов в директориях faq, cgi-bin, images и указанной страницы faqs.html находящейся в корневой директории сайта, то robots.txt должен содержать следующее:

Пояснение

Указывая конкретное имя поискового робота в директиве User-agent, вы запрещаете ему индексировать содержимое, которые вы укажете. Запрет доступа к каталогам и определенным страницам осуществляется указанием таких ресурсов в директиве Disallow. После чего указанные ресурсы не будут индексироваться роботом Google.

Вот собственно и все!

Как было указано ранее, использование файла robots.txt может быть затруднено в случае динамических сайтов и в этом случае возможно придется использовать комбинацию robots.txt и <META>-тег «robots».

<META> тэг «robots»

Этот альтернативный метод «сказать» поисковым роботам, что делать с содержимым сайтом, представлен в разделе <HEAD> веб-страницы. Ниже приведен простой пример использования тега:

В этом примере мы сообщаем все поисковым роботам не индексировать страницу и не переходить ни по одной ссылке из содержайщихся на странице.

В следующем примере мы запрещаем поисковому роботу Google кэшировать страницу, потому что, например, сайт содержит быстро изменяющуюся информацию. Это достигается просто добавлением директивы “noarchive”.

Что может быть проще!

Несмотря на то, что есть и другие способы борьбы против появления повторяющегося контента в поисковых системах, приведенное выше просто и легко реализуется, и все поисковые роботы оперируют как с файлом robots.txt, так и с МЕТА-тегом robots.

Автор статьи: Эндрю Олфри (Andrew Allfrey)
Перевод: ST2KB
Оригинал статьи

Эндрю Олфри – директор компании Search Engine Marketing