Как закрыть сайт от индексации: рассказываем суть

Естественно, ПС все равно могут начать индексацию, что в дальнейшем может создать некоторые проблемы с SEO-продвижением. Сегодня мы разберем наиболее популярные способы сокрытия проекта от взора поисковых роботов. Давайте начинать!


Блок: 1/4 | Кол-во символов: 231
Источник: https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html

Что такое индексация сайта

Опубликованный на страницах сайтов контент собирается заранее и хранится в базе данных поисковой системы.

Называется эта база данных Индексом (Index), а собственно процесс сбора информации в сети с занесением в базу ПС называется «индексацией».

Продвинутые пользователи мгновенно сообразят, получается, что если текст на странице сайта не занесен в Индекс поисковика, так эта информация не может быть найдена и контент не станет доступен людям?

Так оно и есть. Каждый день тысячи веб-мастеров публикуют на своих площадках новые статьи. Однако доступными для поиска эти новые публикации становятся далеко не сразу.

Это полезно знать: Какую роль в работе сайта играют DNS-сервера

В плане индексации Google работает несколько быстрее нашего Яндекса.

  • Публикация на сайте станет доступна в поиске Гугл через несколько часов. Иногда индексация происходит буквально в считанные минуты.
  • В Яндексе процесс сбора информации относительно нового контента в интернете происходит значительно медленнее. Иногда новая публикация на сайте или блоге появляется в Яндексе через две недели.

Чтобы ускорить появление вновь опубликованного контента, администраторы сайтов могут вручную добавить URL новых страниц в инструментах Яндекса для веб-мастеров. Однако и это не гарантирует, что новая статья немедленно появится в интернете.

С другой стороны, бывают ситуации, когда веб-страница или отдельная часть контента уже опубликованы на сайте, но вот показывать этот контент пользователям нежелательно по каким-либо причинам.

  • Страница еще не полностью доработана, и владелец сайта не хочет показывать людям недоделанный продукт, поскольку это производит негативное впечатление на потенциальных клиентов.
  • Существует разновидностей технического контента, который не предназначен для широкой публики. Определенная информация обязательно должна быть на сайте, но вот видеть ее обычным людям пользователям не нужно.
  • В статьях размещаются ссылки и цитаты, которые необходимы с информационной точки зрения, но вот находиться в базе данных поисковой системы они не должны. Например, эти ссылки выглядят как неестественные и за их публикацию в проект может быть подвергнут штрафным санкциям.

В общем, причин, почему веб-мастеру не хотелось бы, чтобы целые веб-страницы или отдельные блоки контента, ссылки не были занесены в базы поисковиков, может существовать много.

Давайте разберемся, как задачу управления индексацией решить практически.

Блок: 2/3 | Кол-во символов: 2445
Источник: https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html

Решение: запрет на индексацию сайта с помощью robots.txt


По шагам:

Создаем текстовый файл с названием robots, получаем robots.txt.

Копируем туда этот код

  User-agent: *  Disallow: /  

Полученный файл с помощью FTP заливаем в корень сайта.

Если нужно закрыть индексацию сайта только от Яндекс:

  User-agent: Yandex  Disallow: /  

Если же скрываем сайт только от Google, то код такой:

  User-agent: Googlebot  Disallow: /  

Блок: 2/11 | Кол-во символов: 426
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html

Закрыть сайт от индексации в файле .htaccess

Способ первый

В файл .htaccess вписываем следующий код:

  SetEnvIfNoCase User-Agent "^Googlebot" search_bot  SetEnvIfNoCase User-Agent "^Yandex" search_bot  SetEnvIfNoCase User-Agent "^Yahoo" search_bot  SetEnvIfNoCase User-Agent "^Aport" search_bot  SetEnvIfNoCase User-Agent "^msnbot" search_bot  SetEnvIfNoCase User-Agent "^spider" search_bot  SetEnvIfNoCase User-Agent "^Robot" search_bot  SetEnvIfNoCase User-Agent "^php" search_bot  SetEnvIfNoCase User-Agent "^Mail" search_bot  SetEnvIfNoCase User-Agent "^bot" search_bot  SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot  SetEnvIfNoCase User-Agent "^Snapbot" search_bot  SetEnvIfNoCase User-Agent "^WordPress" search_bot  SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot  SetEnvIfNoCase User-Agent "^Parser" search_bot  

Каждая строчка для отдельной поисковой системы

Способ второй и третий

Для всех страниц на сайте подойдет любой из вариантов — в файле .htaccess прописываем любой из ответов сервера для страницы, которую нужно закрыть.

  • Ответ сервера — 403 Доступ к ресурсу запрещен -код 403 Forbidden
  • Ответ сервера — 410 Ресурс недоступен — окончательно удален

Способ четвертый

Запретить индексацию с помощью доступа к сайту только по паролю

В файл .htaccess, добавляем такой код:

  AuthType Basic  AuthName "Password Protected Area"  AuthUserFile /home/user/www-auth/.htpasswd  Require valid-user  
  home/user/www-auth/.htpasswd - файл с паролем - пароль задаете Вы сами.  

Авторизацию уже увидите, но она пока еще не работает

Теперь необходимо добавить пользователя в файл паролей:

  htpasswd -c /home/user/www-auth/.htpasswd USERNAME  

USERNAME это имя пользователя для авторизации. Укажите свой вариант.

Блок: 3/11 | Кол-во символов: 1724
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html

Как проверить, в индексе документ или нет? #


Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.


Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.


Блок: 4/9 | Кол-во символов: 367
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html

Заключение

Как видите, способов закрытия проекта от ПС очень много. Я рассмотрел наиболее популярные и действенные варианты. Надеюсь, что этот материал поможет вам в решении ваших проблем. Все на самом деле очень просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно просто активировать настройку, и проект будет закрыт.

Также можно воспользоваться универсальным способом и закрыть ресурс через robots.txt. Таким вариантом пользуется абсолютное большинство вебмастеров, и никаких нареканий у них не возникает. В любой удобный момент можно просто изменить содержимое файла и отправить сайт на переиндексацию.

Блок: 4/4 | Кол-во символов: 636
Источник: https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html

Как скрыть от индексации картинки? #


Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:

User-Agent: *

Disallow: *.jpg

Disallow: *.png

Disallow: *.gif


Блок: 5/9 | Кол-во символов: 217
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html

Закрываем блок на сайте от индекса

Довольно часто требуется закрыть от индексации определенный блок: меню, счетчик, текст или какой-нибудь код.

Когда был популярен в основном Яндекс, а Google все само как то в топ выходило, все использовали вариант Тег «noindex»

  <noindex>Все что угодно тут - ссылки или текст или код</noindex>  

Но потом Яндекс все чаще и чаще стал не обращать внимания на такой технический прием, а Google вообще не понимает такой комбинации и все стали использовать другую схему для скрытия от индексации части текста на странице — с помощью javascript:

Текст или любой блок — кодируется в javascript , а потом сам скрипт закрывается от индексации в robots.txt

Как это реализовать?

Нам понадобится:

  • Файл BASE64.js для декодирования того, что нужно скрыть.
  • Алгоритм SEOhide.js.
  • Jquery.
  • Robots.txt (чтобы скрыть от индексации сам файл SEOhide.js)
  • HTML код

BASE64.js. Здесь я его приводить не буду, в данном контексте он нам не так интересен.

</pre>  <pre class="html">$(function(){  	var seoContent = {"de96dd3df7c0a4db1f8d5612546acdbb":"0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu",  	"54cdc704188eee4573d9e6cafe5f708a":"0JfQsNGF0L7QtNC40YLQtSwg0YfQuNGC0LDQudGC0LUsINC/0L7QtNC/0LjRgdGL0LLQsNC50YLQtdGB0YwsINGA0LDRgdGB0LrQsNC30YvQstCw0LnRgtC1INC00YDRg9C30YzRj9C8ICk="};  	var seoHrefs = {"43b7c3097587757d49558bdff19a8fcb":"aHR0cDovL2luZXRydS5ydQ=="};  	var $elements = $("");  	for(var i = 0, count = $elements.length; i < count; i++) {  		var $element = $elements.eq(i);  		var key = $element.data("key");  		switch($element.data("type")) {  			case "href":  				$element.attr("href", Base64.decode(seoHrefs));  				break;  			case "content":  				$element.replaceWith(Base64.decode(seoContent));  				break;  		}  	}  	$(document).trigger( "renderpage.finish");  });</pre>  <pre>
    • de96dd3df7c0a4db1f8d5612546acdbb — это идентификатор, по которому будет осуществляться замена.
    • 0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu— html, который будет отображаться для объявленного идентификатора.
</pre>  <pre class="html"><span data-key="de96dd3df7c0a4db1f8d5612546acdbb" data-type="content"></span><br />  <span data-key="54cdc704188eee4573d9e6cafe5f708a" data-type="content"></span><br />  <a href="#" data-key="43b7c3097587757d49558bdff19a8fcb" data-type="href">Перейти</a></pre>  &nbsp;  <pre>

В robots.txt обязательно скрываем от индексации файл SEOhide.js.

Блок: 5/11 | Кол-во символов: 2588
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html

Универсальный вариант скрытия картинок от индексации


К примеру, вы используете на сайте картинки, но они не являются оригинальными. Есть страх, что поисковые системы воспримут их негативно.

Код элемента, в данном случае ссылки, на странице, будет такой:

  <span class="hidden-link" data-link="http://goo.gl"><img src="..."></span>  

Скрипт, который будет обрабатывать элемент:

  <script>$('.hidden-link').replaceWith(function(){return'<a href="'+$(this).data('link')+'">'+$(this).html()+'</a>';})</script>  

Блок: 6/11 | Кол-во символов: 551
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html

Как скрыть сайт от индексации поисковыми системами

Сбором информации в интернете и занесением его в базу данных поисковой системы занимаются автоматические программы, называемые роботами-индикаторами. Веб-мастера часто называют этих роботов сокращенно «ботами».

Слово «боты» вы могли уже встречать в различных мессенджерах. В этих системах быстрой коммуникации боты тоже являются компьютерными программами, выполняющими определенные функции или задачи.

Так вот, для того, чтобы роботы-индексаторы не занесли определенные веб-страницы или контент в Index поисковика, следует сформировать специальные команды, которые указывают ботам, что некоторые страницы на сайте посещать запрещено, а некоторый контент не следует заносить в поисковые базы.

Настроить команды запрета индексации можно несколькими способами, которые мы и рассмотрим ниже.

Запрет в robots.txt

В корневой папке сайта на удаленном сервере хостинг-провайдера имеется файл с именем robots.txt.

  • Что такое корневая папка сайта? Корневая папка или каталог – это то место, которому в первую очередь производится запрос из браузера, когда пользователь обращается к какому-нибудь ресурсу в интернете. То есть, это исходная папка с которой начинаются все запросы к веб-ресурсу.
  • Файл robots.txt – это пакетный командный файл, в котором содержатся директивы для ПС, ответственных за индексацию контента.

Говоря простыми словами, robots.txt это специальный файл, предназначенный для поисковых роботов. Что, собственно, понятно из самого имени документа – Robots, что означает «роботы».

Отредактировать файл с командами для роботов ПС можно вручную в простом текстовом редакторе, добавить или удалить команды, изменить отдельные записи.

У каждой поисковой системы действует множество роботов, которые ответственны за индексацию разного рода контента. Отдельные роботы ищут и заносят в базу изображения, текст, скрипты и все остальное, что только может иметь значение для нормальной работы интернет-проекта.

Роботов индексаторов довольно много, перечислим только некоторых из них:

  • Yandex – главный робот, ответственный за индексацию проекта в поисковой системе Яндекс.
  • YaDirectBot – робот, ответственный за индексацию веб-страниц, на которых опубликована контекстной системы Яндекс Директ.
  • Yandex/1.02.000 (F) – робот, занимающийся индексации фавиконов, иконок сайта, которые пользователь видит во вкладках браузера и в сниппетах на странице выдачи.
  • Yandex Images – индексация изображений.

Как вы понимаете, директивы или команды следует задавать для каждого конкретного робота в том случае, если вы желаете задать правила поведения индексация индексируемых роботов в отношении определенного типа контента.

Если же необходимо задать правила индексации для всей поисковой системы, тогда в файле robots.txt прописывается директива для главного робота.

В поисковой системе Google работают свои роботы:

  • Googlebot – основной бот Google.
  • Googlebot Video – сбор информации о видеороликах, размещенных на площадке.
  • Googlebot Images – индексация картинок.

А теперь давайте рассмотрим, как выглядят сами директивы или команды для поисковых роботов.

  • Команда User-agent: определяет, какому конкретному роботу предназначена директива. Если в этой команде указана звездочка * – это означает что команда предназначена для всех, любых поисковых роботов.
  • Команда Disallow означает запрет индексации, а команда Allow означает разрешение индексации.

Например, команда User-agent: Yandex задает правила поведения для всех поисковых роботов Яндекса. Если юзер-агент не задан, то команды будут действовать для всех поисковых систем.

В общем-то, для того, чтобы вручную редактировать файл robot.txt, не нужно быть опытным программистам.

В профессиональных конструкторах сайтов и системах управления контентом обычно предусмотрен отдельный интерфейс для настройки файла robots.txt. Знать конкретные названия поисковых роботов и разбираться в директивах необходимости нет. Достаточно указать то, что вам нужно в самом файле.

Рассмотрим для примера некоторые команды.

  • User-agent: *
  • Disallow: /

Эта директива запрещает обход проекта любым роботам всех поисковых систем. Если же будет указана директива Allow — сайт открыт для индексации.

Следующая команда запрещает обход всем поисковым системам, кроме Яндекса.

  • User-agent: *
  • Disallow: /
  • User-agent: Yandex
  • Allow: /

Чтобы запретить индексацию только отдельных страниц, создается вот такая команда – запрет на обход страниц «Контакты» и «О компании».

  • User-agent: *
  • Disallow: /contact/
  • Disallow: /about/

Закрыть целый отдельный каталог сайта:

  • User-agent: *
  • Disallow: /catalog/

Закрыть папку с картинками:

  • Disallow: /images/

Не индексировать файлы с указанным расширением:

  • User-agent: *
  • Disallow: /*.jpg

Различных команд, с помощью которых можно управлять поисковыми роботами, существует достаточно много. Веб-мастер может в широких пределах регулировать схему индексации веб-страниц и отдельных типов контента.

Запрет индексации через htaccess

На серверах Apache для управления доступом используется файл .htaccess (hypertext access).

Особенностью функционирования этого файла является то, что его команды распространяются только на папку или каталог, в которых этот файл размещен. Если этот файл помещается в корневой каталог, то его директивы будут действовать на весь ресурс.

Возникает логичный вопрос, зачем использовать более сложный .htaccess, если задать порядок индексации можно в файле robots.txt?

Дело в том, что далеко не все роботы не всех поисковых систем подчиняются команда файла robots.txt. Зачастую поисковые роботы просто игнорируют этот файл.

С другой стороны, директивы .htaccess являются всеобъемлющими по отношению к сайтам, размещенным на серверах типа Apache.

Хотя файл .htaccess тоже является текстовым и может быть отредактирован веб-мастером в простом редакторе, настройка этого файла скорее является прерогативой опытных специалистов техподдержки хостинг-провайдера. Поскольку команд у него намного больше и неопытному человеку очень легко допустить критические ошибки, которые приведут к неправильной работе проекта.

Следующая команда предназначена для запрета индексации сайта определенным поисковым роботам:

SetEnvIfNoCase User-Agent

Далее прописывается конкретный робот поисковой системы.

Для каждого робота команда прописывается отдельной строкой.

SetEnvIfNoCase User-Agent «^Yandex» search_bot

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

Как вы могли заметить, хотя .htaccess является простым текстовым файлом, он не имеет расширения txt, а должен иметь именно указанный формат, в противном случае сервер его не распознает.

С помощью админ панели WordPress

Зайдите в административную панель своего блога на WordPress и выберите раздел «Настройки». Нажмите на пункт Меню «Чтение».

После перехода в интерфейс «Чтение», вы найдете следующие возможности для настройки индексации.

Отметьте пункт «Попросить поисковые системы не индексировать сайт», если не хотите, чтобы контент был доступен в открытом интернете. Не забудьте сохранить изменения.

Как видите, при помощи админ панели WordPress можно сделать только общие запреты или разрешения. Для более тонких настроек индексации следует использовать файл robots.txt и .htaccess.

С помощью meta-тега

Директивы добавляются в файле header.php в контейнере <head> … </head>.

Команда выглядит следующим образом:

<meta name=”robots” content=”noindex, nofollow”/>

Это означает, что поисковым роботам запрещается индексация контента. Если вместо robots указа точное имя бота определенной поисковой машины, то запрет будет касаться только ее роботов.

На этом все, как видите существует много методов, которые позволят скрыть площадку от поисковых систем. Какой использовать вам, решайте сами.

Только помните, что проанализировать правильность директив относительно индексации сайта можно с помощью инструментов Яндекса для веб-мастеров либо через SEO-сервисы.

Блок: 3/3 | Кол-во символов: 7858
Источник: https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html

Задача: закрыть внешние или внутренние ссылки от индексации


Обычно это делают для того, чтобы не передавать вес другим сайтам или при перелинковке уменьшить уходящий вес текущей страницы.

Создаем файл transfers.js

Эту часть кода вставляем в transfers.js

  function goPage(sPage) {      window.location.href = sPage;  }  

Этот файл, размещаем в соответствующей папке (как в примере «js») и на странице в head вставляем код:

  <script type="text/javascript" src="/js/transfers.js"></script>  

А это и есть сама ссылка, которую нужно скрыть от индексации:

  <a href="javascript:goPage('http://site.ru/')"></a>  

Блок: 7/11 | Кол-во символов: 636
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html

Как обращаться к другим поисковым роботам (список) #

У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):

  • Yandex — основной робот-индексатор Яндекса.
  • Googlebot — основной робот-индексатор от Google.
  • Slurp — поисковый робот от Yahoo!.
  • MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
  • SputnikBot — имя робота российского поисковика Спутник от Ростелекома.

Блок: 8/9 | Кол-во символов: 541
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html

Кол-во блоков: 15 | Общее кол-во символов: 18220
Количество использованных доноров: 4
Информация по каждому донору:

  1. https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html: использовано 5 блоков из 11, кол-во символов 5925 (33%)
  2. https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html: использовано 3 блоков из 9, кол-во символов 1125 (6%)
  3. https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html: использовано 2 блоков из 3, кол-во символов 10303 (57%)
  4. https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html: использовано 2 блоков из 4, кол-во символов 867 (5%)



Поделитесь в соц.сетях:

Оцените статью:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Добавить комментарий