Существует множество причин, по которым возникает необходимость скрыть  от поисковых роботов ту или иную часть сайта, а может и полностью весь ресурс. Если на сайте размещен неуникальный контент, его нужно спрятать от поисковиков, в обязательном порядке скрывают технические страницы, админки и прочее. Если на сайте имеется повторяющийся элемент контента, то такие страницы также лучше скрыть.

В арсенале имеется несколько способов скрытия контента, отдельных страниц или сайта полностью.

В арсенале имеется несколько способов скрытия контента, отдельных страниц или сайта полностью.

Скрываем от поисковых роботов домен

Мы представляем вам несколько способов закрыть домен от индексации:

  1. Использовать файл robots.txt.
    В файле прописываем строки:

User-agent: *

Disallow: /

— Такой синтаксис позволяет скрыть ресурс полностью от всех поисковых систем. Существует вариант для каждой поисковой системы отдельно. Для этого необходимо прописать отдельную строку к каждому поисковику:

User-agent: yandex

Disallow: /

— Следующая комбинация позволяет скрыть сайт от всех поисковых машин,кроме одной определенной:

User-agent: *

Disallow: /

User-agent: Yandex

Allow: /

Чтобы ваш сайт действительно не попал в индекс, файл роботс должен быть написан строго по синтаксису, иначе вы рискуете продемонстрировать поисковым роботам нежелательные страницы ресурса.

  1. Использование мета-тега

Также домен закрывается от индексации путем добавление в код страницы мета-тега:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Мета-тег размещается в HEAD кода HTML той страницы, которую необходимо скрыть. Такой метод удобнее применять, когда необходимо скрыть отдельные страницы.

  1. Использование .htaccess

Такой способ позволяет закрывать отдельные страницы, защищенные паролем, от поисковых роботов. Особенность данного метода заключается в том, что процедура ввода пароля доступна не всем парсерам, следовательно, полностью проверить ресурс на наличие ошибок будет невозможно.

Процесс закрытия текста от поисковых машин

На сегодняшний день имеется возможность скрыть от индекса любую часть текстового контента, будь то меню, ссылки, текст и прочее. В этом случае метод с использованием <noindex> не эффективен. На данном этапе активно используется закрытие от индексации посредством Javaskript. Производится кодирование элементов с помощью JS в виде отдельных скриптов, которые скрываются от индекса с помощью Robots.txt.

Данный метод хорошо применять, к примеру, для большого количества ссылок, чтобы было удобней распределять их вес по страницам. Это поможет избежать путаницы. Остальные элементы также можно скрывать от индексации, будь то обычный текст, пункты меню, ссылки и даже изображения.

Хотя этот метод и считается одним из самых удобных, но Google рекомендует избегать его, так как пользователи должны видеть на сайте файлы формата JS и CSS.

Как скрыть отдельную страницу?

Для закрытия отдельной страницы от роботов лучше всего использовать Robots.txt и мета-тег <noindex>.

Первый вариант подразумевает под собой использование следующей комбинации, которая включает в себя элемент для скрытия (в данном случае это ссылка на страницу):

User-agent: ag

Disallow: http://site.com/page

После добавления такого текста в файл роботс, скорее всего желаемая страница будет скрыта от поисковых роботов, но стопроцентной гарантии нет.

Лучший вариант – это использование мета-тега:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

ааааа

Благодаря мета-тегу файл роботс не будет нагружен лишними элементами, так как он добавляется HEAD HTML страницы. Robots.txt может перегружаться, когда нужно скрыть не одну страницу, а, к примеру, 100-200 и более.

Как скрыть раздел по параметру URL?

Если страницы имеют общий параметр, по которому их можно объединить, то можно поступить следующим образом:

Рассмотрим пример, когда в определенном разделе сайта расположена информация, которую необходимо скрыть от индексации. Она объединяется единой папкой или разделом.

Чтобы скрыть весь раздел или папку необходимо прописать такие строки в роботс:

Disallow: /папка/ или Disallow: /Раздел/*

Для полной гарантии скрытия файлов от индексации, лучше воспользоваться еще одним методом с мета-тегом:

META NAME=»ROBOTS» CONTENT=»NOINDEX”

Такую строку добавляют в HTML-код каждой страницы, которую нужно скрыть.

Дополнительные способы скрыть страницы сайта от поисковых роботов

Существует еще несколько способов закрытия информации от индекса, но они относятся к более рискованным, нежели упомянутые выше. Можно заблокировать запросы от User-agents, которых нежелательно пропускать на сайт, к примеру, они несут какую-то опасность ресурсу или же перегружают систему лишними запросами.

Для скрытия информации на сайте используйте только те методы, которые не вызывают у вас сомнения, чтобы ненужный контент не попал в поле зрения поисковых ботов.

Для скрытия информации на сайте используйте только те методы, которые не вызывают у вас сомнения, чтобы ненужный контент не попал в поле зрения поисковых ботов.

Любой поисковик, парсер и т.п. можно назвать вредоносным и не подпустить его к сайту. Только если вы уверены в своих действиях и имеете опыт в этом деле, тогда можно использовать данный метод. В ином случае вы рискуете еще больше навредить сайту, нежели защитить его от роботов наподобие Ахревса и прочих.

Применение HTTP-заголовка

X-robots-Tag – это часть HTTP-заголовка, которая соответствует определенному URL. Все директивы, которые содержит в себе мета-тег роботс, применяются и к данному заголовку. В X-robots-Tag прописывается агент пользователя, для которого страница не будет высвечиваться в выдаче.

Выводы

Существует множество причин, по которым весь сайт или определенную его страницу необходимо скрыть от поисковых систем. Для улучшения позиций сайта в выдаче такие действия бывают обязательны, так как может быть риск попадания неуникальных элементов сайта на общее обозрение. Это может привести к ухудшению позиций ресурса. Бывает, что просто какой-то элемент нужно скрыть с глаз пользователей, так как он является частью технического содержания сайта.

Способы, которые мы рассмотрели, являются основными и универсальными для всех случаев. Некоторые из них более просты и актуальны для постоянного применения (к примеру, использование дополнительных директив в файле robots.txt или же использование мета-тега).

Стоит отметить, что использование роботс не всегда удобно в применении и не может гарантировать стопроцентное скрытие ресурса от поисковых ботов. Поэтому в качестве страховочного варианта используют мета-тег <noindex>, который дает больше гарантий, что к роботам не попадет ненужная информация.

Если дело касается скрытия всего сайта или нескольких страниц, тогда отличным вариантом будет использование роботс. Если же вам необходимо скрыть много страниц, объединенных единым параметром, тогда лучше использовать noindex и не перегружать файл роботс множеством директив.

Остальные способы стоит применять с большой осторожностью, чтобы не навредить ресурсу, к примеру, блокировка запросов от различных юзер-агентов. Такая манипуляция оградит вас от вероятных вредоносных систем, но также подвергнет другим рискам, если вы недостаточно компетентны в этом деле.

Кроме целых сайтов и страниц данные методы помогают скрыть отдельные папки и разделы сайта.