АнтиСЕО. Правила L. Анализ структуры веб-страницы

Итак, начинаю публиковать непосредственно правила выявления ссылок. Все их и начальный пост можно будет прочитать по ссылке http://ivan.begtin.name/category/антисео/

Напомню что:

  • все правила хотя и проверялись, но предоставляются как сугубое ИМХО.
  • то о чем я пишу — это так называемый «контентный анализ» страниц и ссылок. У крупных поисковиков есть более действенные способы выявления спама, с другой стороны эти правила могут применятся даже при отсутствии их инфраструктуры и накопленных данных.

[L-001-001].  Значения атрибутов id и class ссылки в черном списке.

Не все, но многие вебмастера при размещении платных ссылок добавляют их тэгам «a» или тэгам их блоков атрибуты вроде adv, advertizement, reklama, seo, seobot и так далее. Выявление подобных атрибутов при анализе веб страницы позволяет предполагать что ссылки под ними являются платными, особенно если есть и другие признаки на это указывающие.

Пример: При просмотре кода главной страницы сайта Алекса Экслера можно обнаружить что группа внешних ссылок собрана под тэгом с атрибутом class в значении seobot. Это является признаком к тому что все ссылки в данном блоке попадают под подозрение в их неестественности.

Рисунок 16. Блок ссылок на сайте Алекса Экслера (на 15.04.2009)

image031

Пример: На сайте www.mk.ru в конце страницы собран блок ссылок если взглянуть на который в исходном коде страницы видно что блок является рекламным, а ссылки высокую вероятность что они неественны.

Рисунок 17. Блок ссылок на сайте mk.ru (на 15.04.2009)

image033

[L-001-002].  Встречаемость ссылки более N раз на веб страницы.

При размещении платных ссылок большинство веб-мастеров предпочитают их не показывать, но скрывать множеством возможных способов. При этом если внешняя ссылка на странице встречается более некого числа фиксированного числа раз, то можно предполагать что она является естественной так как не заметить её сложнее. Многократная повторяемость ссылки на одной странице является признаком что она может быть естественной.

[L-001-003].  Размер блока внешних ссылок.

Ссылки на веб-страницах могут быть одиночными, но чаще они группируются по различными принципам. Например, ссылки на счётчики в конце страницы или ссылки меню навигации. Вполне возможно определить является ли рассматриваемая нами ссылка часть блока или нет.

При поисковой оптимизации особенно часто используется размещение ссылок группами и это один из критериев для определения того является ли внешняя ссылка платной или нет.

Пример: На сайте газеты Завтра (www.zavtra.ru) в конце страницы присутствует блок из 15 внешних ссылок что, вместе с другими признаками,  резко повышает вероятность что эти ссылки не являются естественными.

Рисунок 18. Блок ссылок на сайте zavtra.ru (на 15.04.2009)

image035

Рисунок 19. Код блока ссылок на сайте zavtra.ru на 15.04.2009

image037

[L-002-001].  Местораcположение ссылки в конце страницы.

Ссылки на веб странице могут быть расположены в различных её частях. Поскольку именно расположение ссылки и используется для её сокрытия от пользователей, но сохранение для поисковых систем, то может использоваться ряд проверок позволяющих определить видимость ссылки людям. 

Простейшими проверками тут будут:

— наличие ссылки в последних 5% веб страницы;

— наличие ссылки внутри тэгов со значениями у атрибутов id и class в виде «footer» или 

«end».

Пример: На сайте astronet в последних 5% страницы присутствует блок из большого числа внешних ссылок.

Рисунок 20. Блок ссылок на сайте astronet.ru (на 15.04.2009)

image039

[L-002-002].  Местораcположение ссылки по отношению к рекламным блокам.

В случае если ссылка расположена недалеко или внутри блоков отмеченных как рекламные словами «Advertizement», «Advert», «Реклама», “Спонсоры” и так далее, то это повышает вероятность что они размещены для целей SEO, но не для посетителей сайта.

Рисунок 21. Блок ссылок на сайте worldweapon.ru (на 15.04.2009)

image041

[L-003-001].  Превышение критической массы окружающих SEO ссылок.

В процессе проверки веб страницы на наличие платных ссылок, ряд правил позволяет определить ссылки как платные даже без учёта других критериев. Отсюда проверка ссылок может происходить в несколько итераций с уточнением результатов.

Это правило используется в случае наличия второй итерации и оно проверяет не была ли рассматриваемая ссылка помечена как естественная и не окружают ли её ссылки отмеченные как платные.

[L-003-002].  Использование средств сокрытия внешнего вида ссылок.

Поскольку платные ссылки, в отличии от естественных, не предназначены для того чтобы по ним перемещались посетители сайта, и более того зачастую сайты сознательно их скрывают от пользователей для поддержания своей репутации, то тот факт то отдельные ссылки выбиваются из общего стиля страницы и сливаются с текстом или же написаны слишком мелким текстом – это признаки то ссылки естественными не являются.

Рисунок 22. Ссылки на странице dvinainform.ru (на 15.04.2009)

image043

Рисунок 23. Код ссылок на сайте dvinainform.ru (на 15.04.2009)

image045

[L-004-001].  Наличие специальных рекламных меток.

В некоторых случаях размещения ссылочных блоков, сервисы посредством которых это размещение проводится оставляют свои метки для отслеживания статистики.

Например, у некоторых блоков неестественных ссылок присутствует метка в виде ссылки на www.linksplace.ru/p/1.gif

Рисунок 24. Размещение блока ссылок с меткой linksplace

image045

[L-004-002].  Соответствие блока ссылок типовым шаблонам блоков SEO ссылок

У блоков SEO ссылок есть целый ряд особенностей на основе которых можно выделить паттерны их размещения. Например, к ним можно отнести такие признаки как:

— широкий разброс тем между сайтами реципиентами

— от 80 до 100% сайтов реципиентов являются коммерческими

— наличие текста до и после ссылки при наложении ссылки на слова наиболее релевантные теме сайта.

Например, паттерн в виде <text><ссылка с ключевым текстом></текст> при его повторении более 3-х раз может рассматриваться как подозрительный.

В случае выявления блоков ссылок, то классифицируется уже не только сама ссылка, но и блок целиком

About This Author

  • http://twitter.com/xcentrist Stass Soldatov

    правила L-002 — это зло, false positives будет полно. ну или их надо подавать на вход в какой-то весьма умный классификатор, умнее простого Байеса

    • http://ivan.begtin.name Ivan Begtin

      У разных правил разный вес в зависимости от алгоритма. У конкретно этого правила вес должен быть небольшим. Насчёт Байеса, так я лично практически практически не пользуюсь подобными классификаторами, предпочитая организовывать правила в Decision Tree.

Яндекс.Метрика