Естественно, ПС все равно могут начать индексацию, что в дальнейшем может создать некоторые проблемы с SEO-продвижением. Сегодня мы разберем наиболее популярные способы сокрытия проекта от взора поисковых роботов. Давайте начинать!
Источник: https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html
Содержание
- 1 Что такое индексация сайта
- 2 Решение: запрет на индексацию сайта с помощью robots.txt
- 3 Закрыть сайт от индексации в файле .htaccess
- 4 Как проверить, в индексе документ или нет? #
- 5 Заключение
- 6 Как скрыть от индексации картинки? #
- 7 Закрываем блок на сайте от индекса
- 8 Универсальный вариант скрытия картинок от индексации
- 9 Как скрыть сайт от индексации поисковыми системами
- 10 Задача: закрыть внешние или внутренние ссылки от индексации
- 11 Как обращаться к другим поисковым роботам (список) #
Что такое индексация сайта
Опубликованный на страницах сайтов контент собирается заранее и хранится в базе данных поисковой системы.
Называется эта база данных Индексом (Index), а собственно процесс сбора информации в сети с занесением в базу ПС называется «индексацией».
Продвинутые пользователи мгновенно сообразят, получается, что если текст на странице сайта не занесен в Индекс поисковика, так эта информация не может быть найдена и контент не станет доступен людям?
Так оно и есть. Каждый день тысячи веб-мастеров публикуют на своих площадках новые статьи. Однако доступными для поиска эти новые публикации становятся далеко не сразу.
Это полезно знать: Какую роль в работе сайта играют DNS-сервера
В плане индексации Google работает несколько быстрее нашего Яндекса.
- Публикация на сайте станет доступна в поиске Гугл через несколько часов. Иногда индексация происходит буквально в считанные минуты.
- В Яндексе процесс сбора информации относительно нового контента в интернете происходит значительно медленнее. Иногда новая публикация на сайте или блоге появляется в Яндексе через две недели.
Чтобы ускорить появление вновь опубликованного контента, администраторы сайтов могут вручную добавить URL новых страниц в инструментах Яндекса для веб-мастеров. Однако и это не гарантирует, что новая статья немедленно появится в интернете.
С другой стороны, бывают ситуации, когда веб-страница или отдельная часть контента уже опубликованы на сайте, но вот показывать этот контент пользователям нежелательно по каким-либо причинам.
- Страница еще не полностью доработана, и владелец сайта не хочет показывать людям недоделанный продукт, поскольку это производит негативное впечатление на потенциальных клиентов.
- Существует разновидностей технического контента, который не предназначен для широкой публики. Определенная информация обязательно должна быть на сайте, но вот видеть ее обычным людям пользователям не нужно.
- В статьях размещаются ссылки и цитаты, которые необходимы с информационной точки зрения, но вот находиться в базе данных поисковой системы они не должны. Например, эти ссылки выглядят как неестественные и за их публикацию в проект может быть подвергнут штрафным санкциям.
В общем, причин, почему веб-мастеру не хотелось бы, чтобы целые веб-страницы или отдельные блоки контента, ссылки не были занесены в базы поисковиков, может существовать много.
Давайте разберемся, как задачу управления индексацией решить практически.
Источник: https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html
Это интересно: Как вести электронный дневник: описываем суть
Решение: запрет на индексацию сайта с помощью robots.txt
По шагам:
Создаем текстовый файл с названием robots, получаем robots.txt.
Копируем туда этот код
User-agent: * Disallow: /
Полученный файл с помощью FTP заливаем в корень сайта.
Если нужно закрыть индексацию сайта только от Яндекс:
User-agent: Yandex Disallow: /
Если же скрываем сайт только от Google, то код такой:
User-agent: Googlebot Disallow: /
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html
Закрыть сайт от индексации в файле .htaccess
Способ первый
В файл .htaccess вписываем следующий код:
SetEnvIfNoCase User-Agent "^Googlebot" search_bot SetEnvIfNoCase User-Agent "^Yandex" search_bot SetEnvIfNoCase User-Agent "^Yahoo" search_bot SetEnvIfNoCase User-Agent "^Aport" search_bot SetEnvIfNoCase User-Agent "^msnbot" search_bot SetEnvIfNoCase User-Agent "^spider" search_bot SetEnvIfNoCase User-Agent "^Robot" search_bot SetEnvIfNoCase User-Agent "^php" search_bot SetEnvIfNoCase User-Agent "^Mail" search_bot SetEnvIfNoCase User-Agent "^bot" search_bot SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot SetEnvIfNoCase User-Agent "^Snapbot" search_bot SetEnvIfNoCase User-Agent "^WordPress" search_bot SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot SetEnvIfNoCase User-Agent "^Parser" search_bot
Каждая строчка для отдельной поисковой системы
Способ второй и третий
Для всех страниц на сайте подойдет любой из вариантов — в файле .htaccess прописываем любой из ответов сервера для страницы, которую нужно закрыть.
- Ответ сервера — 403 Доступ к ресурсу запрещен -код 403 Forbidden
- Ответ сервера — 410 Ресурс недоступен — окончательно удален
Способ четвертый
Запретить индексацию с помощью доступа к сайту только по паролю
В файл .htaccess, добавляем такой код:
AuthType Basic AuthName "Password Protected Area" AuthUserFile /home/user/www-auth/.htpasswd Require valid-user
home/user/www-auth/.htpasswd - файл с паролем - пароль задаете Вы сами.
Авторизацию уже увидите, но она пока еще не работает
Теперь необходимо добавить пользователя в файл паролей:
htpasswd -c /home/user/www-auth/.htpasswd USERNAME
USERNAME это имя пользователя для авторизации. Укажите свой вариант.
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html
Как проверить, в индексе документ или нет? #
Проще всего осуществить проверку в рамках сервиса «Пиксель Тулс», бесплатный инструмент «Определение возраста документа в Яндексе» позволяет ввести URL списком. Если документ отсутствует в индексе, то в таблице будет выведено соответствующее значение.
Анализ проведён с помощью инструментов в сервисе Пиксель Тулс.
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html
Заключение
Как видите, способов закрытия проекта от ПС очень много. Я рассмотрел наиболее популярные и действенные варианты. Надеюсь, что этот материал поможет вам в решении ваших проблем. Все на самом деле очень просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно просто активировать настройку, и проект будет закрыт.
Также можно воспользоваться универсальным способом и закрыть ресурс через robots.txt. Таким вариантом пользуется абсолютное большинство вебмастеров, и никаких нареканий у них не возникает. В любой удобный момент можно просто изменить содержимое файла и отправить сайт на переиндексацию.
Источник: https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html
Это интересно: Как стать модератором — во всех подробностях
Как скрыть от индексации картинки? #
Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в robots.txt:
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html
Закрываем блок на сайте от индекса
Довольно часто требуется закрыть от индексации определенный блок: меню, счетчик, текст или какой-нибудь код.
Когда был популярен в основном Яндекс, а Google все само как то в топ выходило, все использовали вариант Тег «noindex»
<noindex>Все что угодно тут - ссылки или текст или код</noindex>
Но потом Яндекс все чаще и чаще стал не обращать внимания на такой технический прием, а Google вообще не понимает такой комбинации и все стали использовать другую схему для скрытия от индексации части текста на странице — с помощью javascript:
Текст или любой блок — кодируется в javascript , а потом сам скрипт закрывается от индексации в robots.txt
Как это реализовать?
Нам понадобится:
- Файл BASE64.js для декодирования того, что нужно скрыть.
- Алгоритм SEOhide.js.
- Jquery.
- Robots.txt (чтобы скрыть от индексации сам файл SEOhide.js)
- HTML код
BASE64.js. Здесь я его приводить не буду, в данном контексте он нам не так интересен.
</pre> <pre class="html">$(function(){ var seoContent = {"de96dd3df7c0a4db1f8d5612546acdbb":"0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu", "54cdc704188eee4573d9e6cafe5f708a":"0JfQsNGF0L7QtNC40YLQtSwg0YfQuNGC0LDQudGC0LUsINC/0L7QtNC/0LjRgdGL0LLQsNC50YLQtdGB0YwsINGA0LDRgdGB0LrQsNC30YvQstCw0LnRgtC1INC00YDRg9C30YzRj9C8ICk="}; var seoHrefs = {"43b7c3097587757d49558bdff19a8fcb":"aHR0cDovL2luZXRydS5ydQ=="}; var $elements = $(""); for(var i = 0, count = $elements.length; i < count; i++) { var $element = $elements.eq(i); var key = $element.data("key"); switch($element.data("type")) { case "href": $element.attr("href", Base64.decode(seoHrefs)); break; case "content": $element.replaceWith(Base64.decode(seoContent)); break; } } $(document).trigger( "renderpage.finish"); });</pre> <pre>
-
- de96dd3df7c0a4db1f8d5612546acdbb — это идентификатор, по которому будет осуществляться замена.
- 0JHQu9C+0LMgU0VPINC80LDRgNC60LXRgtC+0LvQvtCz0LAgLSDQn9Cw0LLQu9CwINCc0LDQu9GM0YbQtdCy0LAu— html, который будет отображаться для объявленного идентификатора.
</pre> <pre class="html"><span data-key="de96dd3df7c0a4db1f8d5612546acdbb" data-type="content"></span><br /> <span data-key="54cdc704188eee4573d9e6cafe5f708a" data-type="content"></span><br /> <a href="#" data-key="43b7c3097587757d49558bdff19a8fcb" data-type="href">Перейти</a></pre> <pre>
В robots.txt обязательно скрываем от индексации файл SEOhide.js.
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html
Универсальный вариант скрытия картинок от индексации
К примеру, вы используете на сайте картинки, но они не являются оригинальными. Есть страх, что поисковые системы воспримут их негативно.
Код элемента, в данном случае ссылки, на странице, будет такой:
<span class="hidden-link" data-link="http://goo.gl"><img src="..."></span>
Скрипт, который будет обрабатывать элемент:
<script>$('.hidden-link').replaceWith(function(){return'<a href="'+$(this).data('link')+'">'+$(this).html()+'</a>';})</script>
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html
Как скрыть сайт от индексации поисковыми системами
Сбором информации в интернете и занесением его в базу данных поисковой системы занимаются автоматические программы, называемые роботами-индикаторами. Веб-мастера часто называют этих роботов сокращенно «ботами».
Слово «боты» вы могли уже встречать в различных мессенджерах. В этих системах быстрой коммуникации боты тоже являются компьютерными программами, выполняющими определенные функции или задачи.
Так вот, для того, чтобы роботы-индексаторы не занесли определенные веб-страницы или контент в Index поисковика, следует сформировать специальные команды, которые указывают ботам, что некоторые страницы на сайте посещать запрещено, а некоторый контент не следует заносить в поисковые базы.
Настроить команды запрета индексации можно несколькими способами, которые мы и рассмотрим ниже.
Запрет в robots.txt
В корневой папке сайта на удаленном сервере хостинг-провайдера имеется файл с именем robots.txt.
- Что такое корневая папка сайта? Корневая папка или каталог – это то место, которому в первую очередь производится запрос из браузера, когда пользователь обращается к какому-нибудь ресурсу в интернете. То есть, это исходная папка с которой начинаются все запросы к веб-ресурсу.
- Файл robots.txt – это пакетный командный файл, в котором содержатся директивы для ПС, ответственных за индексацию контента.
Говоря простыми словами, robots.txt это специальный файл, предназначенный для поисковых роботов. Что, собственно, понятно из самого имени документа – Robots, что означает «роботы».
Отредактировать файл с командами для роботов ПС можно вручную в простом текстовом редакторе, добавить или удалить команды, изменить отдельные записи.
У каждой поисковой системы действует множество роботов, которые ответственны за индексацию разного рода контента. Отдельные роботы ищут и заносят в базу изображения, текст, скрипты и все остальное, что только может иметь значение для нормальной работы интернет-проекта.
Роботов индексаторов довольно много, перечислим только некоторых из них:
- Yandex – главный робот, ответственный за индексацию проекта в поисковой системе Яндекс.
- YaDirectBot – робот, ответственный за индексацию веб-страниц, на которых опубликована контекстной системы Яндекс Директ.
- Yandex/1.02.000 (F) – робот, занимающийся индексации фавиконов, иконок сайта, которые пользователь видит во вкладках браузера и в сниппетах на странице выдачи.
- Yandex Images – индексация изображений.
Как вы понимаете, директивы или команды следует задавать для каждого конкретного робота в том случае, если вы желаете задать правила поведения индексация индексируемых роботов в отношении определенного типа контента.
Если же необходимо задать правила индексации для всей поисковой системы, тогда в файле robots.txt прописывается директива для главного робота.
В поисковой системе Google работают свои роботы:
- Googlebot – основной бот Google.
- Googlebot Video – сбор информации о видеороликах, размещенных на площадке.
- Googlebot Images – индексация картинок.
А теперь давайте рассмотрим, как выглядят сами директивы или команды для поисковых роботов.
- Команда User-agent: определяет, какому конкретному роботу предназначена директива. Если в этой команде указана звездочка * – это означает что команда предназначена для всех, любых поисковых роботов.
- Команда Disallow означает запрет индексации, а команда Allow означает разрешение индексации.
Например, команда User-agent: Yandex задает правила поведения для всех поисковых роботов Яндекса. Если юзер-агент не задан, то команды будут действовать для всех поисковых систем.
В общем-то, для того, чтобы вручную редактировать файл robot.txt, не нужно быть опытным программистам.
В профессиональных конструкторах сайтов и системах управления контентом обычно предусмотрен отдельный интерфейс для настройки файла robots.txt. Знать конкретные названия поисковых роботов и разбираться в директивах необходимости нет. Достаточно указать то, что вам нужно в самом файле.
Рассмотрим для примера некоторые команды.
- User-agent: *
- Disallow: /
Эта директива запрещает обход проекта любым роботам всех поисковых систем. Если же будет указана директива Allow — сайт открыт для индексации.
Следующая команда запрещает обход всем поисковым системам, кроме Яндекса.
- User-agent: *
- Disallow: /
- User-agent: Yandex
- Allow: /
Чтобы запретить индексацию только отдельных страниц, создается вот такая команда – запрет на обход страниц «Контакты» и «О компании».
- User-agent: *
- Disallow: /contact/
- Disallow: /about/
Закрыть целый отдельный каталог сайта:
- User-agent: *
- Disallow: /catalog/
Закрыть папку с картинками:
- Disallow: /images/
Не индексировать файлы с указанным расширением:
- User-agent: *
- Disallow: /*.jpg
Различных команд, с помощью которых можно управлять поисковыми роботами, существует достаточно много. Веб-мастер может в широких пределах регулировать схему индексации веб-страниц и отдельных типов контента.
Запрет индексации через htaccess
На серверах Apache для управления доступом используется файл .htaccess (hypertext access).
Особенностью функционирования этого файла является то, что его команды распространяются только на папку или каталог, в которых этот файл размещен. Если этот файл помещается в корневой каталог, то его директивы будут действовать на весь ресурс.
Возникает логичный вопрос, зачем использовать более сложный .htaccess, если задать порядок индексации можно в файле robots.txt?
Дело в том, что далеко не все роботы не всех поисковых систем подчиняются команда файла robots.txt. Зачастую поисковые роботы просто игнорируют этот файл.
С другой стороны, директивы .htaccess являются всеобъемлющими по отношению к сайтам, размещенным на серверах типа Apache.
Хотя файл .htaccess тоже является текстовым и может быть отредактирован веб-мастером в простом редакторе, настройка этого файла скорее является прерогативой опытных специалистов техподдержки хостинг-провайдера. Поскольку команд у него намного больше и неопытному человеку очень легко допустить критические ошибки, которые приведут к неправильной работе проекта.
Следующая команда предназначена для запрета индексации сайта определенным поисковым роботам:
SetEnvIfNoCase User-Agent
Далее прописывается конкретный робот поисковой системы.
Для каждого робота команда прописывается отдельной строкой.
SetEnvIfNoCase User-Agent «^Yandex» search_bot
SetEnvIfNoCase User-Agent «^Googlebot» search_bot
Как вы могли заметить, хотя .htaccess является простым текстовым файлом, он не имеет расширения txt, а должен иметь именно указанный формат, в противном случае сервер его не распознает.
С помощью админ панели WordPress
Зайдите в административную панель своего блога на WordPress и выберите раздел «Настройки». Нажмите на пункт Меню «Чтение».
После перехода в интерфейс «Чтение», вы найдете следующие возможности для настройки индексации.
Отметьте пункт «Попросить поисковые системы не индексировать сайт», если не хотите, чтобы контент был доступен в открытом интернете. Не забудьте сохранить изменения.
Как видите, при помощи админ панели WordPress можно сделать только общие запреты или разрешения. Для более тонких настроек индексации следует использовать файл robots.txt и .htaccess.
С помощью meta-тега
Директивы добавляются в файле header.php в контейнере <head> … </head>.
Команда выглядит следующим образом:
<meta name=”robots” content=”noindex, nofollow”/>
Это означает, что поисковым роботам запрещается индексация контента. Если вместо robots указа точное имя бота определенной поисковой машины, то запрет будет касаться только ее роботов.
На этом все, как видите существует много методов, которые позволят скрыть площадку от поисковых систем. Какой использовать вам, решайте сами.
Только помните, что проанализировать правильность директив относительно индексации сайта можно с помощью инструментов Яндекса для веб-мастеров либо через SEO-сервисы.
Источник: https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html
Задача: закрыть внешние или внутренние ссылки от индексации
Обычно это делают для того, чтобы не передавать вес другим сайтам или при перелинковке уменьшить уходящий вес текущей страницы.
Создаем файл transfers.js
Эту часть кода вставляем в transfers.js
function goPage(sPage) { window.location.href = sPage; }
Этот файл, размещаем в соответствующей папке (как в примере «js») и на странице в head вставляем код:
<script type="text/javascript" src="/js/transfers.js"></script>
А это и есть сама ссылка, которую нужно скрыть от индексации:
<a href="javascript:goPage('http://site.ru/')"></a>
Источник: https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html
Как обращаться к другим поисковым роботам (список) #
У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в файле robots.txt. Приведем список основных из них (полные списки ищите в помощи Вебмастерам):
- Yandex — основной робот-индексатор Яндекса.
- Googlebot — основной робот-индексатор от Google.
- Slurp — поисковый робот от Yahoo!.
- MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
- SputnikBot — имя робота российского поисковика Спутник от Ростелекома.
Источник: https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html
Количество использованных доноров: 4
Информация по каждому донору:
- https://semantica.in/blog/prakticheskie-resheniya-zakrytie-sajta-ili-ego-chasti-ot-indeksaczii.html: использовано 5 блоков из 11, кол-во символов 5925 (33%)
- https://pixelplus.ru/samostoyatelno/stati/indeksatsiya/kak-zakryt-sayt-ot-indeksatsii.html: использовано 3 блоков из 9, кол-во символов 1125 (6%)
- https://SEOslim.ru/site-s-nulja/kak-zakryt-sajt-ot-indeksacii.html: использовано 2 блоков из 3, кол-во символов 10303 (57%)
- https://iklife.ru/sozdanie-sajta/kak-zakryt-sajt-ot-indeksacii-poiskovikov.html: использовано 2 блоков из 4, кол-во символов 867 (5%)