Важность файла robots.txt в продвижении сайтов невозможно переоценить. Это действительно та техническая составляющая ресурса, которая способна дать нужные команды поисковым роботам и тем самым запретить индексацию определенных элементов сайта. Плохо составленный роботс способен навредить продвижению, поэтому очень важно постигнуть правила составления корректного файла robots.txt.

 

Одна неправильно составленная или упущенная директива может выставить напоказ те страницы сайта, которые не должны быть видны поисковым ботам. Ситуация может быть совершенно противоположная: лишняя директива закроет нужные страницы ресурса, что негативно скажется на траффике.

Одна неправильно составленная или упущенная директива может выставить напоказ те страницы сайта, которые не должны быть видны поисковым ботам. Ситуация может быть совершенно противоположная: лишняя директива закроет нужные страницы ресурса, что негативно скажется на траффике.

Что такое robots.txt

Текстовый файл robots.txt необходим для того, чтобы задать нужные параметры поисковым роботам для проведения корректной индексации сайта. Любая сессия начинается с загрузки роботс. Его отсутствие означает, что сайт полностью доступен для индексации.

Более детальный разбор особенностей файла robots.txt и его директив вы найдете здесь.

Процесс создания файла robots.txt

Создать файл очень просто. Вы можете воспользоваться блокнотом или любым другим редактором. Файл нужно назвать «robots» и сохранить его в формате .txt. Поместив файл в корневую папку сайта, удостоверьтесь, что он доступен по адресу «ваш домен»/robots.txt. По этому адресу будет доступен пустой файл роботс, который необходимо заполнить. На этом создание файла окончено. Куда серьезнее стоит вопрос с его содержанием.

Шаблоны для составления robots.txt

Такой вариант написания роботс позволяет избежать ручной работы и составления файла. Шаблоны содержат в себе ключевые директивы, однако для его грамотного использования также потребуются знания. Шаблонный роботс не может гарантировать абсолютной правильности файла, а это говорит о том, что вы подвергаете свой сайт риску.

Текстовый файл вы создаете сами и вставляете туда уже готовое наполнение. Существует множество шаблонов, к примеру, WordPress, Joomla и прочие.

Чем помогают online-генераторы при составлении robots.txt?

Для помощи в создании файла роботс вам помогут online-генераторы. Созданный с помощью подобной программы файл невозможно считать полноценным, так как генератору не по силам исключить из robots.txt ненужные фрагменты, а также автоматически внести в текст зеркало сайта. Использование генератора подойдет тем, кто не хочет сидеть часами над монотонной работой, а жаждет сразу же получить готовый файл.

В любом вам понадобятся знания основного синтаксиса роботс, чтобы внести важные коррективы вручную.

Создаем robots.txt собственноручно

  1. Написание файла начинается с размещения трех «User-agent» с пропуском в одну строку между каждой директивой:

User-agent: Yandex

User-agent: Googlebot

User-agent: *

Как вы заметили, первые две строки прописываются для Яндекс и Google, а вот третья нужна в качестве универсальной, так как каждая поисковая система задает особые требования.

  1. Для каждого «User-agent» необходимо прописать директивы, которые будут запрещать индексацию основных форматов файлов:

Disallow: *.pdf

Disallow: *.xls

Disallow: *.doc

Disallow: *.ppt

Disallow: *.txt

Такие файлы лучше закрывать от индексации, чтобы они брали на себя большую долю релевантности, нежели сам ресурс, и поисковые системы не отдавали им предпочтение в выдаче. Если же на сайте нет документов одного из перечисленных форматов, то такие директивы пригодятся вам в будущем.

  1. Каждый «User-agent» дополняет разрешающей директивой для индексации файлов формата CSS и JS. Для корректной индексации такие директивы необходимы.

Allow: */<папка содержащая css>/*.css

Allow: */<папка содержащая js>/*.js

  1. Для того, чтобы поисковые роботы могли индексировать изображения, дополняем каждый «User-agent» разрешающей директивой для основных форматов изображений:

Allow: */<название папки, где находятся медиа файлы>/*.jpg

Allow: */<название папки, где находятся медиа файлы >/*.jpeg

Allow: */<название папки, где находятся медиа файлы >/*.png

Allow: */<название папки, где находятся медиа файлы >/*.gif

Такие директивы должны быть в вашем robots.txt, чтобы изображения не были закрыты случайно. Здесь ситуация аналогична, как и с документами. Для перестраховки и на перспективу лучше оставить данные директивы.

  1. При написании «user-agent» для Яндекс, стоит добавить дополнительную директивы «clean-param», которая необходима для удаления меток отслеживания. Это поможет исключить появление одинаковых страниц при выдаче.

Clean-param: utm_source&utm_medium&utm_term&utm_content&utm_campaign&yclid&gclid&_openstat&from /

  1. Такие же параметры необходимо закрепить в GSC в разделе «Параметры URL». Стоит помнить, что отдельной запрещающей директивой закрывать метки не рекомендуется, так как после этого на странице невозможно запустить рекламу в Google Adwords.
  2. В остальных случаях для «User-agent» добавляем:

Disallow: *utm

Disallow: *clid=

Disallow: *openstat

Disallow: *from

  1. Следующий этап подразумевает закрытие от поисковых роботов всех служебных файлов, дубликаты страниц, а также документов, которые бесполезны для поискового продвижения. Запрещающая директива должна быть для каждого «User-agent» отдельная.

К страницам, которые нужно закрыть от индексации, относятся:

  • админка;
  • персональные страницы пользователей;
  • фильтры и сортировка;
  • оформление и корзины.
  1. Яндекс также требует указания зеркала сайта:

Host: site.ru

  1. После всех перечисленных директив делается пропуск в одну строку и прописывается директива xml-карт, если они актуальны для сайта:

Sitemap: http://site.ru/sitemap.xml

 

В итоге вы должны получить полноценный, отлажено функционирующий файл robots.txt, который может быть использован без вреда ресурсу.

В итоге вы должны получить полноценный, отлажено функционирующий файл robots.txt, который может быть использован без вреда ресурсу.

Когда можно ставить пропуск строки в файле robots.txt:

  • между двумя «User-agent», то есть между последней директивой одного и началом другого;
  • между последней директивой последнего «User-agent» и началом директивы «Sitemap».

После составления файла мы рекомендуем проверить его в онлайн-сервисах для анализа роботс. Также следует промониторить все файлы, которые открыты для индексации на наличие ошибок.

Ошибки, которые чаще всего совершают при составлении robots.txt

Составления файла роботс достаточно простая задача, если постигнуть азы его синтаксиса. Но существует несколько распространенных ошибок, о которых стоит знать.

  1. Нежелательное полное закрытие сайта от индексации

User-agent: *

Disallow: /

Такая манипуляция, если она была проведена незапланированно, может привести к полной потере траффика, так как сайт не будет виден в поисковой выдаче.

  1. Игнорирование закрытия меток отслеживания

Если метки отслеживания не будут закрыты от поисковых роботов, то в поиске могут появиться дубликаты страниц ресурса, что не будет играть на пользу продвижению.

  1. Некорректное внесение в роботс зеркала сайта

User-agent: *

Host: site.ru # В то время, как правильное зеркало sub.site.ru

Вероятнее всего Яндекс пропустит такую директиву и не будет учитывать ее при индексации. Зеркала будут склеены в один сайт в случае, если, к примеру, каждый из них относится к определенному региону.

Что необходимо закрывать от индексации?

  1. Первоначально нужно убедиться, что у страниц нет открытых дубликатов. При вводе ключевых слов в поиск должны появляться оригиналы страниц с уникальным контентом. Робот будет считывать только основной адрес страницы, а технические адреса стоит скрыть с помощью роботс, а именно — масок:

Disallow: /*?*

Disallow: /*%

Disallow: /index.php

Disallow: /*?page=

Disallow: /*&amp;amp;page=

  1. Страницы, на которых находится неуникальный контент, стоит сразу же закрыть от поисковых роботов, так как все равно будут изъяты системой автоматически.
  2. В индекс не должны попадать страницы, отображающие сценарий, к примеру, «Авторизация прошла успешно».
  3. Индикаторам сессий также не место в индексе:

Disallow: *PHPSESSID=

Disallow: *session_id=

  1. Исключаем из индекса страницы с файлами шаблонов, баз данных, страницу администратора и прочие cma файлы.

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

  1. Ко всему закрываем доступ к результатам поиска, калькулятору и прочему контенту, который не важен для пользователей.

Соблюдение всех перечисленных правил поможет вам держать свой индекс в полном порядке.

Файлы для индексации

Разрешающая директива должна быть использована почти для всего контента (до 90%). Индексировать можно все, что не находится под запрещающей директивой. Стоит помнить, что индексируемый контент должен быть полезен пользователям.

Являются ли sitemap и host обязательными директивами?

Данные директивы прописать желательно, чтобы ускорить процесс индексации. Host является рекомендацией для Яндекс, хотя теоретически поисковая система может и не воспользоваться этой директивой. Путь к файлу sitemap.xml будет подсказывать соответствующая директива.

Под какие поисковые системы нужно настраивать robots.txt?

Синтаксис файла роботс универсален для всех поисковых систем. Можно прописать в файле общий «User-agent», и тогда директивы будут предназначены для всех поисковиков. Под разные поисковые системы можно составлять разные директивы, тогда остальные команды этим поисковиком будут проигнорированы.

Важность директив Clean-param и Crawl-delay

Чтобы поисковые роботы быстро сориентировались в динамических ссылках, стоит использовать директиву Clean-param. Также она поможет вам убрать дубликаты страниц из поисковой выдачи.

Crawl-delay используется в зависимости от хостинга. Если сервер постоянно перегружен, то данная директива облегчит его работу.

Вывод

Файл robots.txt – это отличное средство управления индексацией сайта. Файл представляет собой набор директив, которые задают рамки для действий поисковым роботам. Каждая из директив, в свою очередь, задает определенную команду для действия поискового бота.

Знание основного синтаксиса поможет вам собственноручно составить файл.Корректно написанный роботс способен защитить систему от серьезных ошибок, а также поможет правильному взаимодействию сайта и поисковых систем.