Некоторые наблюдения за поисковыми машинами. Жизнь ссылки

В последнее время, нечто вроде хобби, в свободное время анализом того как работают поисковые машины и их применимости семантическому вебу. И, также, моделями распространения информации. Одно из наблюдений — это время реакции поисковой машины на появление новой информации.

Быстро сделанный для этих целей мини-проект — Урлус (urlus.ru) который работает укорачивателем ссылок по аналогии с TinyUrl за исключением того что позволяет отслеживать число обращений к ссылке за период времени. А чуть позже и смотреть детальную статистику, пока она закрыта, но ведётся.

Если описать жизнь типовой ссылки публикуемой через мой блог, то она выглядит так:

1. 0 минут 0 секунд. Публикация поста со ссылкой в своём блоге

2. 0 минут 1 секунда. Пинг ссылки из WordPress’а на предмет проверки не блог ли это и не надо ли кинуть pingback

3. 5-15 минут. Наведение на ссылку кем-либо в Livejournal и индексация ссылки Snap.com

4. 5-15 минут. Импорт записи в ITBlogs.ru и пинг со стороны Community Server не блог ли это и не надо ли кинуть pingback

5. Обращения пользователей.

6. 1 час. Индексация ссылки Google’ом.

7. Обращения пользователей с меньшей частотой.

8. Через 6 часов первая индексация Рамблером.

9. Последующая повторная индексация ссылки Гуглом примерно раз в сутки.

10. около 7 дней повторная индексация Рамблером

11. около 10 дней. Индексация ссылки Яндексом. Видимо сказывается специфика фильтров Яндекса и тот факт что ссылки уникальны и публикуются первый раз.

Плюс ещё обращения с Yahoo и WebAlta которые с пока непонятной частотой.

Некоторые наблюдения по итогам:

— Snap.com не кеширует данные в принципе и обращается к ресурсу всегда, при каждом наведении на ссылку, хотя могли бы кешировать хотя бы минут 15. Неудивительно почему многие сайты блокируют их робота. Для страниц на которые часто ссылаются с сайтов где стоит расширение Snap’а, он создаёт нехилую нагрузку.

— существенное отличие Google от остальных поисковиков в оперативности — после размещения ссылки на Livejournal она индексируется в пределах 1-1,5 часа и он наиболее активно обращается к ссылкам, раз в день минимум.

— привязки робота к ссылке или домену отсутствуют. Одну и ту же ссылку могут проиндексировать роботы с разных IP адресов. Они, видимо, просто работают по списку шедулера.

— Яндекс выдерживает паузу примерно в 10 дней и обращается к ссылке лишь по истечении этого времени. Несколько странно, но всё же объяснимо.

— Live.com, похоже что, ссылки в блогах тщательно игнорирует или жёстко фильтрует. Ни одного обращения за всё время.

— Появился некий загадочный поисковик EnaBall (http://enaball.com) претендующий на семантическую индексацию. Очень интересно, я как раз активно интересуюсь этой темой, никак конкуренты:)

About This Author

Яндекс.Метрика