Файл Robots.txt
Что такое robotx.txt? Системный файл для роботов поисковых систем, содержит набор рекомендаций, не жестких правил. Директивы robots.txt Директива – вспомогательная инструкция, не закон, а рекомендация в программе. В нашем случае это рекомендация для бота ПС в файле robots.txt Директива User-agent: Перечисляется список роботов, указывая их названия к которым будет обращение в виде списка директив. Если…
Содержание
Что такое robotx.txt?
Системный файл для роботов поисковых систем, содержит набор рекомендаций, не жестких правил.
Директивы robots.txt
Директива – вспомогательная инструкция, не закон, а рекомендация в программе. В нашем случае это рекомендация для бота ПС в файле robots.txt
Директива User-agent:
Перечисляется список роботов, указывая их названия к которым будет обращение в виде списка директив. Если обращение к всем ботам – указывается *
User-agent: * – в такой комбинации, все директивы будут обращены к все роботам.
При необходимости обратиться к определенному боту, необходимо выяснить его имя, предварительно выяснив в логах хостинга частоту его обращения (т.е. если бот обращается к сайту, а вашему сайту не нужна индексация этого бота)
User-agent: Googlebot
Основной бот Google. Полная инструкция по настройке тут
User-agent: Bingbot
Бот поисковика Bing. Инструкция по детальной настройке тут
Закрыть индексацию ботом Bing
User-agent: Bingbot
Disallow: /
User-agent: YandexBot
Бот поисковой системы яндекс. Если необходимо закрыть индексацию сайта от бота яндекс:
User-agent: YandexBot
Disallow: /
User-agent: MJ12bot
Бот сервиса Majestic
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Бот сервиса Ahrefs
User-agent: AhrefsBot
Disallow: /
User-agent: Baiduspider
Бот поисковой системы Baidu
User-agent: Baiduspider
Disallow: /
Директива Disallow:
Запрет индексации URL которые указаны.
Директива Allow:
Исключение из запрета, так директивой Disallow может быть закрыта вся категория, а исключение карточка товара – используют Allow:
Директива Sitemap:
Указывает путь к файлу. Т.к. карта сайта может находиться не в корне, где бот ее ищет по умолчанию, а в папке, или на другом сайте/сервисе.
Директива Host:
Указывается основной адрес сайта: с www или без, протокол http или https
Директива crawl-delay:
Указывает (ограничивает) на частоту обхода ботом страниц сайта. Используется на больших сайтах к которым бот часто, даже слишком часто может заходить, тем самым создавая дополнительную нагрузку на процессор и память сервера
FAQ по robots.txt
Где находится robots.txt?
Всегда в корне сайта, в отличии от sitemap.xml не может находиться в другом месте
Как создать robots.txt
С помощью обычного текстового редактора – блокнота. Сохраняется с расширением .txt