Блокирование Google бота и других ботов при помощи htaccess, robots.txt и мета-тегов

Блокирование Google и ботов при помощи htaccess, robots.txt и мета-тегов

Каждый владелец сайта знает об исключительной необходимости попадания на страницу поисковой выдачи. Однако не каждый в курсе, что и изъятие некоторых страниц из SERP имеет ничуть не менее важное значение. Рассмотрим приемы, при помощи которых вы сможете заблокировать доступ к определенным частям своего ресурса.

Варианты решения задачи

  • Защита паролем.

Блокирование сайта при помощи htaccess-пароля — это отличный способ закрыть доступ к ресурсу для сторонних посетителей. Правда, данный прием не может работать на постоянной основе, если вы используете тестирование демо-версии сайта.

  • Robots.txt.

Другой вариант, который предлагает Google, это задействование файла robots.txt, который сообщит поисковым роботам, что сканировать и выводить в SERP определенные страницы сайта не нужно.

Для активизации данного способа используется кодировка:

User-agent: *

Disallow: /

Однако и это решение не является всегда на 100% удачным и действенным. Инженер программного обеспечения Гугл, Мэтт Каттс (Matt Cuts), подчеркивает, что если Google определит данные страницы как релевантные поисковым запросам пользователей, то они все равно попадут в SERP, невзирая на robots.txt-блокировку.

  • Использование .htaccess RewriteCond.

Чтобы полностью перекрыть доступ к сайту как таковому для Google и других аналогичных роботов можно прописать в htaccess следующий код:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]

RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]

RewriteCond %{HTTP_USER_AGENT} msnbot [OR]

RewriteCond %{HTTP_USER_AGENT} Slurp

RewriteRule ^.*$ "http\:\/\/htmlremix\.com" [R=301,L]

Измените URL в последней строке на URL вашего основного сайта, чтобы ресурс зарабатывал SEO рейтинг по мере обращения пользователей к вашему заблокированному сайту.

  • Мета-теги.

Вы можете уберечь страницу от появления в выдаче Google, включив noindex мета-тег на странице HTML-кода. При последующем сканировании данной страницы бот поисковой системы увидит данный мета-тег и исключит эту часть сайта из результатов поисковой выдачи, вне зависимости от того, ссылаются ли на нее другие ресурсы или нет.

Обратите внимание, чтобы данный прием работал корректно, страница не должна быть заблокирована при помощи файла Robots.txt. В противном случае сканер просто не увидит noindex мета-тег, и страница, возможно, и дальше будет появляться в SERP. Например, если на нее ссылаются другие сайты.

Кроме всего прочего, noindex мета-тег будет полезен еще и в том случае, если у вас нет корневого доступа к серверу. Он позволит контролировать доступ к сайту путем контроля над каждой отдельной страницей.

Чтобы предотвратить индексирование страницы большинством известных поисковых веб-сканеров, в разделе <head> нужной страницы разместите следующий мета-тег:

<meta name="robots" content="noindex">

Если вам требуется закрыть доступ только для Google, используйте другой мета-тег:

<meta name="googlebot" content="noindex">

Нужно понимать, что некоторые поисковые роботы могут интерпретировать значение noindex мета-тега по-своему. Поэтому нельзя исключать, что после использования данного приема страница все еще будет отображаться в результатах поисковой выдачи в отдельных поисковых системах.

Если после внедрения тега страница продолжает показываться в SERP Google, то, вероятно, система просто не успела просканировать данную часть вашего ресурса после внесения в нее изменений. Вы можете запросить повторное сканирование сайта, используя инструмент «Fetch». Если и после этого страница остается видимой, то, возможно, причина проблемы заключается в файле robots.txt, который скрывает данную страницу от роботов Гугл. В итоге, система просто не видит тег. Отредактируйте файл robots.txt, чтобы разблокировать страницу для Google. Сделать это, а также протестировать файл можно при помощи инструмента «Tester».