Статистика по использованию robots.txt

Поскольку в некоторых из моих алгоритмов, в частности, для проверки платности ссылок, помимо всего прочего, ещё и анализируются файлы robots.txt, приведу некоторую статистику накопленную за это время.

Для анализа использовалась сравнительно небольшая выборка зоны .ru в 7224 сайта, что чуть менее 1% от общего размера Рунета если верить черному квадрату Алексея Тутубалина.

Наиболее популярные боты

Популярность бота определялась по частоте упоминания его в качестве User-agent в robots.txt.

Таблица 1. Частота упоминания наиболее популярных ботов (первые 5)

User-agent
Всего встречается
Процент к числу сайтов1
*
6587
91,2%
Yandex
1095
15,1
Slurp
107
1,5%
Googlebot
91
1,26%
StackRambler
71
1%


1. часто в robots.txt встречается более одного user-agent поэтому суммарные цифры не будут совпадать с общим числом сайтов

Дополнительные параметры

Дополнительные параметры относятся к различным нестандартным расширениям для robots.txt.

Таблица 2. Встречаемость дополнительных параметров

Метрика / Директива
Всего встречается
Процент к числу сайтов1
Сайтмапы (Sitemap)
104
1,4%
Задержка индексирования (Crawl-delay)
142
2%
Указание основного сайта для зеркал (Host)
3137
43%
Разрешающая директива (Allow)
95
1,3%
Требование к частоте запросов (Request-rate)
3
0,04%
Требование по времени посещения сайта ботом (Visit-time)
1
0,01%


Блокировка сайта для индексирования

Блокировка сайта определялась по наличию в robots.txt директивы «Disallow: /». Поскольку полные блокировки встречаются редко, то и подсчитывались они только для Яндекса и всех роботов (User-agent: *).


Таблица 3. Полная блокировка сайта

User-agent
Всего встречается
Процент к числу сайтов с данным User-Agent Процент к общему числу сайтов
*
131
2%
1,8%
Yandex
8
0,7%
0,8%


Ошибки

Всего ошибок: 119 (1.6% от общего числа)
При этом подавляющее число ошибок из области правописания. Например, часто вместо «User-agent» пишут «UserAgent:», «User Agent:», разделяют директиву и значение пробелом вместо двоеточия. Что также характерно — большая часть ошибок могут выявлены автоматически.

Выводы

1. Пожалуй, самое интересное именно в Рунете отличающееся от других сегментов Интернета — это распространённость директивы «Host» которая является нестандартным расширением поддерживаемым только краулерами Яндекса для определения главного зеркала сайта. Эта директива столько популярна у веб-мастеров что её наличие у сайтов на доменах .com, .net и других можно использовать как признак русскоязычности сайта даже не обладая алгоритмами определения языка веб страниц.

2. Практически в директивы краулерам в Рунете сводятся к общим директивам для всех краулеров (User-agent: *) или же к запрещающим инструкциям для Яндекса остальные же краулеры упоминаются значительно реже.

3. Карты сайтов (sitemaps) всё ещё весьма мало распространены, их используют всего лишь 1,4% от общего числа сайтов.

4. Ошибки в robots.txt довольно редки и их практически всегда можно точно определить и исправить.

About This Author

Яндекс.Метрика