Запрет индексации сайта, правильный robots. txt!
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots. txt . Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index.), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое.
Чтобы создать файл robotx. txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots. txt. Важно, чтобы его название и расширение было написано строчными буквами. Как вы уже могли понять, robots. txt содержит инструкции для поисковика — что индексировать, а что нет. Файл состоит из одной или нескольких инструкций, каждая из которых пишется с новой строки. В свою очередь, каждая инструкция должна состоять из двух частей. Первая определяет, кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая — что именно нельзя индексировать. Первая часть называется, User-agent. Если вы хотите обратиться ко всем поисковикам, то можете писать User-agent: *. Вторая часть Disallow, (запретить). Если вы хотите запретить индексацию всех страниц сайта, то нужно написать Disallow: /, если же разрешаете обрабатывать сайт полностью, то после Disallow должна следовать пустота Disallow. Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: имя файла. расширение) не следует индексировать.
Примеры использования файла robots. txt
Пример 1. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots. txt):
Disallow: /
Пример 3. Разрешаем индексировать всем кроме Яндекса:
User-agent: *
Disallow: /
Пример 5. Яндексу запрещаем индексировать папки cgi и images, а Апорту файлы myfile1.htm и myfile2.htm в директории dir
User-agent: Yandex
Disallow: /cgi/
Disallow: /images/
User-agent: Aport
Disallow: /dir/myfile1.htm
Disallow: /dir/myfile2.htm
Пример 6. Весьма актуальная проблема. Запрещаем индексировать динамические ссылки. пример (?sl=…) всем поисковикам:
Как закрыть сайт от индексации за 1 минуту: 3 способа
Привет всем, друзья!
Иногда возникают ситуации, когда необходимо закрыть сайт от индексации. Ну, например вы решили сменить дизайн блога и не хотите, чтобы в это время на ресурс заходили поисковые боты. Или просто вы только что создали сайт и установили на него движок, соответственно если на ресурсе нет полезной информации, то показывать его поисковым ботам не стоит. В данной статье вы узнаете о том, как закрыть сайт от индексации в Яндексе, Гугле, или сразу во всех поисковых системах. Но перед тем вы также можете прочитать еще одну похожую статью: «Как закрыть ссылку от индексации ?» А теперь приступим.
1. Закрываем сайт от индексации с помощью файла robots. txt.
Для начала вам нужно создать файл robots. txt. Для этого создаете на своем компьютере обычный текстовый документ с названием robots и расширением. txt. Вот я только что создал его:
Теперь этот файл нужно загрузить в корневую папку своего блога. Если ресурс сделан на движке вордпрес, то корневая папка находится там, где папки wp-content, wp-includes и т. д.
Итак, мы загрузили пустой файл на хостинг, теперь нужно с помощью этого файла как-то закрыть блог от индексации. Это можно сделать, как я уже написал только для Яндекса, Гугла или сразу всех поисковиков. Давайте обо всем по порядку.
Как закрыть сайт от индексации только для Яндекса?
Пропишите в файле robots. txt вот такую строчку:
Для того чтобы убедиться в том, что вы запретили индексировать свой ресурс Яндексу, добавьте сначала сайт в Яндекс Вебмастер. если вы этого еще не сделали, а потом перейдите на эту страницу. Дальше введите несколько страниц своего сайта и нажмите на кнопку «Проверить». Если страницы запрещены к индексации, то вы увидите примерно такую картину:
Как закрыть сайт от индексации только для Google?
Откройте файл robots. txt и пропишите там вот такую строчку:
Для того чтобы проверить, что Гугл не индексирует сайт, создайте аккаунт. добавьте свой ресурс в Google Webmaster и перейдите вот сюда. Здесь также нужно ввести несколько страниц и нажать на кнопку «проверить».
Если страница разрешена к индексированию, то будет писать «Разрешено», в таком случае вы сделали что-то не так. Если документ запрещен к индексации, то будет писать «Заблокировано по строке», и Гугл укажет строку, с помощью которой страница запрещена к индексации. Вы также можете прочитать статью о том, как проверить индексацию сайта .
Я заметил, что поисковая система Google индексирует даже те документы, которые запрещены в файле robots. txt и заносит их в дополнительный индекс, так называемые «сопли». Почему, не знаю, но вы должны понимать, что запретить сайт или отдельную страницу с помощью файла robots. txt на 100 % нельзя. Этот файл, как я понял, только рекомендация для Гугла, а он уже сам решает, что ему индексировать, а что нет.
Как закрыть сайт от индексации для всех поисковых систем?
Чтобы запретить сразу всем поисковикам индексировать ваш ресурс, пропишите в robots. txt вот такую строчку:
Теперь вы также можете перейти в Яндекс или Гугл Вебмастер и проверить запрет индексации.
Свой файл robots. txt вы можете увидеть по такому адресу:
Все что вы прописали в этом файле должно отображаться в браузере. Если при переходе по этому адресу перед вами выскакивает ошибка 404. значит, вы не туда загрузили свой файл.
Кстати, мой robots. txt находиться здесь. Если ваш ресурс сделан на движке wordpress, то можете просто скопировать его. Он правильно настроен для того, чтобы поисковые боты индексировали только нужные документы и что бы на сайте не было дублей.
2. Закрываем сайт от индексации с помощью панели инструментов.
Этот способ подойдет только для тех, чей ресурс сделан на вордпрес. Зайдите в «Панель управление» — «Настройки» — «Чтение». Здесь нужно поставить галочку напротив надписи «Рекомендовать поисковым машинам не индексировать сайт».
Обратите внимание, что ниже находиться очень интересная надпись: «Поисковые машины сами решают, следовать ли Вашей просьбе». Это как раз то, о чем я писал выше. Яндекс скорее всего не будет индексировать страницы, которые запрещены к индексации, а вот с Гуглом могут возникнуть проблемы.
3. Закрываем сайт от индексации вручную.
Когда вы закрываете целый ресурс или страницу от индексации, то в исходном коде автоматически появляется вот такая строчка:
Она и говорит поисковым ботам, что документ индексировать нельзя. Вы можете просто вручную прописать эту строчку в любом месте своего сайта, главное чтобы она отображалась на всех страницах и тогда ресурс будет закрыт от индексации.
Кстати, если вы создаете ненужный документ на своем сайте, и не хотите чтобы поисковые боты его индексировали, то можете также вставить в исходном коде эту строчку.
После обновления откройте исходный код страницы (CTRL + U) и посмотрите, появилась ли эта строчка там. Если есть, значит все хорошо. На всякий случай можете еще проверить с помощью инструментов для вебмастеров от Яндекса и Гугла.
На этом все на сегодня. Теперь вы знаете, как закрыть сайт от индексации. Надеюсь, эта статья была полезна для вас. Всем пока.
Кстати, если вам надоело просто читать различные статьи в интернете, и ничего не зарабатывать, то советую для начала создать свой первый сайт. Это можно сделать очень просто, даже если у вас нет знаний языков программирования. Ниже этой статьи есть бесплатный видеокурс по созданию сайтов с подробными видео уроками. Введите свое Имя, E-mail и нажмите на кнопку «Загрузить бесплатно». Через пару минут курс будет у вас на почте.
Что запретить индексировать поисковикам
Индексируя содержание нашего сайта поисковые системы, при помощи сложных алгоритмов определяют значимость каждой страницы, которая уменьшается при наличии на сайте дублированного контента (идентичных по содержанию участков текста).
Чтобы избежать этого, необходимо запрещать индексирование таких страниц.
Где и как можно запретить индексацию страниц
Как запретить индексировать страницы в robots. txt
Чтобы не разрешать индексирование определенного раздела сайта (в примере запрещен доступ к разделу с админкой) в robots. txt пишем:
Проблема с сайтиком http://orenkamaz. ru/
Когда регал домен он оказался запрещен к индексации (пару месяцев назад). Сделал сайт и т. д. Пишу платонам, от них стандартный ответ:
«После анализа и классификации страниц Вашего сайта наши алгоритмы приняли
решение не включать его в поиск…. бла, бла, бла
Наше понимание качественных сайтов отражено в следующих документах:
http://help. yandex. ru/webmaster/?id=995298#995342
http://webmaster. ya. ru/replies. xml? item_no=325&ncrnd=2022
http://webmaster. ya. ru/replies. xml? item_no=3772
http://webmaster. ya. ru/replies. xml? item_no=4967&ncrnd=1743».
Я не поленился, ответил им по каждому пункту во всех ссылках, получилось не мало, страницы 3.
Последующие их ответы:
- Если Ваш сайт полностью соответствует всем нашим рекомендациям, то его
страницы появятся в поиске автоматически.
- Выдача сайта формируется не вручную, поэтому у нас нет возможности "поставить
style="display:inline-block;width:300px;height:250px"
data-ad-client="ca-pub-6667286237319125"
data-ad-slot="5736897066">
Комментариев нет:
Отправить комментарий