Как правильно настроить Robots.txt

s

Ольга

06.04.2017


Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Что такое robots.txt?

Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt — важная часть SEO-работ по повышению позиций сайта в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:
  1. Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

    Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

  2. В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:

Как поисковые роботы видят сайт с robots.txt и без него


Синтаксис robots.txt

Прежде чем начать разбирать синтаксис, посмотрим на то, как должен выглядеть «идеальный файл» robots.txt:

Идеальный robots.txt

Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:

Google и Яндекс

Disallow

С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.

Dissalow

Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.  

Assalow

Host — зеркало сайта

Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.

https и http

Sitemap — карта сайта

Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.

Карта сайта

Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».

  • Слэш «/», скрывает от обнаружения различные страницы сайта.
  • Звездочка «*» применяется для обозначения любой последовательности символов в файле.
  • Знак доллара «$» сдерживает действия знака звездочки. С помощью него, можно запретить содержимое папки, но адрес который содержит папка, разрешить.
  • Решетка «#» применяется для комментирования. Робот не учитывает эти записи при сканировании сайта.

Проверка работоспособности robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

Проверка Яндекса:

  1. Перейдите по ссылке https://webmaster.yandex.ru/tools/robotstxt/.
  2. Выберите: Настройка индексирования — Анализ robots.txt.

Проверка Google:

  1. Перейдите по ссылке https://support.google.com/webmasters/answer/6062598 .
  2. Выберите: Сканирование — Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые коррективы, если потребуется.




В заключение приведу 6 главных рекомендаций по работе с файлом Robots.txt:

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.




Успехов Вам!
Спасибо, что дочитали до конца и до новых встреч!




Комментировать

Наши менеджеры готовы прямо сейчас обсудить ваши задачи!

Сергей

Сергей

Марина

Марина

Игорь

Игорь

Позвоните нам или оставьте заявку на бесплатную консультацию,
мы ответим в течение 1 часа (в рабочее время) и расскажем, как мы сможем решить ваши задачи!

Оставить заявку
Загрузка...