Размышления о поисковых системах

Случайно обнаружил явление что ссылки переданные через urlus.ru Гугл, почему-то, считает ссылками Урлуса. Например, поиск по сайт Минэкономразвития выдаёт второй ссылой ссылку в Урлусе на мой блог.  Учитывая что Урлус делает прямой HTTP редирект на внешний сайт, то Гугль видимо решил что они взаимосвязаны и проиндексировал страницу по этому редиректу. Причём далее он принял решение что страница полученная им через редирект Урлус’а и страница проиндексированная на сайте — идентичны, но конечной внешней ссылкой оставил ссылку в Урлусе.  Что-то тут неправильно, определённо имеется ошибка в логике определения отношений ссылающегося редиректом сайта и его адресата. При том что ни у Yahoo, ни у MSN, ни у Yandex этого явления не происходит.

Ещё одна особенность — это поиск, опять в Гугле, по urlus выдаёт результатами ссылки где которые через urlus транслировались, но на страницах которых и вообще на сайтах где они расположены слова urlus нет и быть не может. То есть получается что ключевое слово связывается со ссылкой даже при полном и гарантированном несоответствии тематике ресурса и отсутствии слова и/или его синонимов на текстах его страниц.

Убедиться можно по поисковым результатам Гугла  по сравнению с результатами в том же Yahoo!
Почему меня не покидает ощущение что как то неправильно алгоритмы ранжирования Гугла работают? Тут тоже что-то неправильно.

—-

Читаю описание алгоритмов TrustRank и HITS . Весьма серьёзные и обоснованные исследования, убеждаюсь что в правильном, математическом, плане моему алгоритму выявления неестественных ссылок, ещё весьма далеко. Впрочем разработку полностью правильной реализации я себе, пока, в задачи и не ставил — вместо этого накапливая базу метаданных и критериев принятия решения. В отличии от алгоритмов отношений страниц, я то работал над алгоритмом определения характера ссылки в контексте конкретного ресурса и страницы.

Одно могу сказать точно, так это то что:

1. Выявление ссылок в контексте всё же возможно, причём с высокой степенью вероятности. Во многих случах со 100% вероятностью

2. Метрики анализа ссылок на естественность / неестественность должны содержать более одного весового коэффициента. На самом деле должно рассчитываться несколько рангов и финанальное решение уже приниматься по их соотношению.

3. Самая рутинная часть задачи — это сбор, классификация и полуавтоматизированный анализ метрик. Учитывая что их число переползает за сотню, это занимает уйму времени, равно как и их выявление.

4. В значительном числе случаев можно однозначно принимать решение о неестественности ссылки безо всяких рангов.
В любом случае думаю что до конца года я найду время чтобы довести алгоритм до финального состояния и подвести смысловую и математическую основу.  В конце то концов, это хорошая тренировка для мозгов и  проверка для моих алгоритмов выявления метрик, которые я на ссылках и опробываю.

—-

Существенная проблема всех поисковиков по блогам — это то как они выводят результаты поиска. Практически все они выводят их по дате публикации, что нормально для поиска по доверенной выборке  новостных ресурсов, но для поиска по блогам уровень доверия к которым изначально низок рано или поздно это закончится заполнением поисковой выдачи спамом.

Приведу конкретный пример. Сейчас чтобы оказаться в десятке первых результатов по ключевым поисковым словам, достаточно:

1. Завести блог и зарегистрировать его в поисковике — например, Яндекс.Блоги или Блогопоиск Гугла.

2. Провести замеры частоты публикации записей с нужными ключевыми словами. Откорректировать эти частоты под дни недели, время суток, праздники и т.п. Это несложно сделать по поисковой выдаче.

3.  Настроить робота который с определённой периодичностью бы размещал записи в блог с выбранными ключевыми фразами.

В данном случае я не описал ничего нового — это явление давно существует называется сплог (спам-блог) и до тех пор пока блогопоисковики не начнут использовать для поиска алгоритмы схожие с pagerank адаптированные под социальные сети, то кардинально ситуация не изменится.

Кстати, абстрактный вопрос, как определить возраст блога учитывая что записи в нём могут публиковаться с указанием даты как в будущем так и в прошлом и верить им нельзя?

About This Author

Яндекс.Метрика