robots.txt

Кратко

robots.txt — текстовый файл в корне сайта, в котором владелец сайта говорит поисковым и AI-крауллерам: что индексировать, что не индексировать, и где искать карту сайта (sitemap.xml). Соблюдается на доверительной основе.

Синтаксис простой: блоки User-agent: имя_бота с правилами Disallow: путь и Allow: путь. Пример: закрыть всем ботам админку и страницы корзины: User-agent: * + Disallow: /admin + Disallow: /cart. Внизу обычно указывают Sitemap: https://site.ru/sitemap.xml. Файл должен лежать строго по адресу /robots.txt (не /static/robots.txt).

Главное недоразумение: robots.txt не запрещает доступ — он запрещает индексацию для уважающих его ботов (Яндекс, Google, GPTBot, ClaudeBot, и т.д.). Парсеры-«грабли», скликалки, спам-боты — обычно игнорируют. Поэтому для защиты от парсинга robots.txt бесполезен; для защиты от попадания в выдачу — рабочий инструмент.

Современные нюансы: появилось много AI-крауллеров (GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, PerplexityBot, Google-Extended, YandexAdditional, CCBot, ...), каждый с уникальным user-agent. Для GEO/AEO стратегии важно явно разрешать (Allow: /) основные из них, иначе по умолчанию некоторые сайты блокируют их через шаблонные правила. Параллельно — заблокировать ЛК, корзину, поиск, страницы с UTM, чтобы AI не цитировал служебные URL.

Пример

Сайт услуг открыл robots.txt для всех AI-ботов (GPTBot, ClaudeBot, PerplexityBot, YandexAdditional) с Allow: /, и через 6 недель Perplexity начал отдавать его как источник по 3 целевым запросам — прирост ~80 переходов в месяц.

Связанные термины

Частые вопросы

robots.txt — на уровне сайта, до запроса страницы: «не ходи сюда». noindex — на уровне самой страницы, бот должен зайти и прочитать тег. Для уже проиндексированных страниц noindex надёжнее: бот зайдёт, увидит запрет и уберёт из выдачи. robots.txt Disallow на уже проиндексированной странице может не убрать её сразу — бот туда просто не зайдёт.

Нужен SEO-аудит вашего сайта?

Заказать аудит