АнтиСЕО. Правила E. Анализ меток отношений и структуры веб-сайтов

Собственно лично я с проблемой АнтиСЕО столкнулся работая над алгоритмом описанном в правиле E-001-003 по определению коммерциализованности веб-сайтов и по правилу выявлению метрик отношений между веб-сайтами.

—-

[E-001-001]. Является ли сайт реципиент блогом.

В отличии от других типов сайтов продвижение блогов случается куда реже. То что сайт реципиент является блогом — это критерий за естественность ссылки, но он её не может гарантировать.

Рисунок 40. Блок ссылок с блога apple2.ru (на 15.04.2009)

image080

Таблица 2. Таблица ссылок на сайте apple2.ru

Сайт Текст CMS Является блогом?
http://arturclancy.com arturclancy.com WordPress Да
http://macovod.net Блог Маковод WordPress Да
http://prostomac.com простоMAC.com WordPress Да

Все ссылки в рассмотренном нами блоке являются ссылками на другие блоги. При этом проверка того что сайты-реципиенты являются блогами может быть произведена несколькими способами. Например:

  • сайт зарегистрирован в одном из крупных рейтингов/каталогов блогов;
  • есть алгоритм способный определить CMS сайта
  • сайт является популярным и внесён в базу сайтов с соответствующей пометкой во время одной из итераций анализа сайтов.

В подавляющем большинстве случаев ссылки с блога на блог являются естественными. Тем не менее нельзя забывать что движок CMS на которых блоги строятся может быть использован и для создания коммерческих ресурсов. Пример – сайт www.woothemes.com продающий темы для WordPress. Несмотря на то что сайт является блогом, одновременно он является и коммерческим ресурсом.

[E-001-002]. Является ли сайт-реципиент государственным или некоммерческим ресурсом.

Это правило определяет является ли сайт-реципиент государственным или некоммерческим ресурсом. Если да, то ссылка на него не рассматривается как платная. В отличии от проверки наличия сайта реципиента в белом списке — это правило требует анализа сайта-реципиента и определения его коммерциализированности.

Например, согласно ему достаточно несложно отделить:

  • государственные сайты в США – домен .gov
  • образовательные сайты в США – домен .edu
  • частично государственные сайты в России – домен .gov.ru (частично поскольку большая часть государственных сайтов в Рунете находится вне домена .gov.ru)

[E-001-003]. Является ли сайт-реципиент коммерческим ресурсом.

Это правило позволяет определить коммерциализированность ресурса. Является ли он интернет-магазином, сайтом коммеческой компании, извлекает ли прибыль от посетителей иным образом. В случае если да, сайт им является, то признак в пользу того что ссылка на данный ресурс является платной.

На самом деле, именно этот признак в совокупности с анализом соответствия текста ссылки теме сайта реципиента и является ключевым для отсева поискового спама и единственно сложным вопросом тут является ответ на вопрос, а как же узнать коммерческий ли ресурс или нет? При огромном числе сайтов ручная проверка каждого окажется невозможной, тем не менее есть несколько наиболее очевидных решений:

  • базы контекстной рекламы Яндекс.Директ и Google.Adsense. Поисковым системам эти базы дают информацию не только о том какие ресурсы являются коммерческими, но и по каким ключевым словам они потенциально могут себя продвигать.
  • каталоги сайтов такие как — Яндекс.Каталог, Каталог mail.ru, Rambler Top100, dmoz.org и так далее. Эти каталоги сравнительно невелики по сравнению с общим числом сайтов.
  • алгоритмы автоматического определения коммерциализированности веб-сайта — эти алгоритмы могут быть построены на разных подходах: контентным анализом веб-сайтов, сравнением их с ранее классифицированными ресурсами, анализом входящих и исходящих ссылок и так далее.

[E-002-001]. ТиЦ сайта-донора больше ТиЦ сайта-реципиента.

В большинстве случаев покупка ссылок осуществляется с сайта более «продвинутого» в поисковых системах — что может выражаться в большей посещаемости сайта донора, большем значении его тематического индекса цитирования или Google PageRank. Несмотря на то что значения ТиЦ и Google PR доступные всем желающим являются искусственными значениями тем не менее это ориентир для многих оптимизаторов при выборе площадок при расстановке ссылок. Отсюда если ТиЦ сайта донора больше ТиЦ сайта реципиента то, при наличии дополнительных факторов, это потенциальный признак платности ссылки

[E-002-002]. Google PageRank сайта-донора больше Google PageRank сайта-реципиента.

Аналогично с проверкой ТиЦ — в случае если значение Google PageRank у сайта донора выше, то это может быть признаком платности данной ссылки. Под Google PageRank в данном случае подразумевается публично доступное значение предоставляемое Google посредством своего тулбара.

[E-002-004]. Нахождение ссылки в блоке ссылок с низким ТиЦ/PR по сравнению с анализируемой страницей.

Хотя иногда и случается, что платные ссылки размещаются на сайтах с меньшим ТиЦ (Яндекс) или PR (Google) чем у страницы сайта-реципиента, но в подавляющем большинстве случаев размещения именно платных ссылок их средний ТиЦ/PR меньше чем у анализируемой страницы.

Нахождение ссылки среди подобного блока ссылок являются признаком против естественности её размещения вне зависимости от того как соотносится её собственное значение ТиЦ/PR с ТиЦ/PR анализируемой страницы.

Пример: Рассмотрим блок ссылок на главной странице ava.ru

Для главной страницы ava.ru значения:

  • ТиЦ – 1200
  • Google Toolbar PageRank — 6

Рисунок 41. Блок ссылок на сайте ava.ru (на 15.04.2009)

image082

Таблица 3. Таблица ТиЦ и GPR для блока ссылок с сайта ava.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://auction.ua/ 425 0.35 6
http://www.pokeroff.ru/ 240 0.2 5
http://imgsrc.ru 600 0.5 3
http://www.fabrikaokon.ru 1100 0.91 5
http://www.comcom.ru 1100 0.91 4
http://www.oknastar.ru 350 0.29 5
http://www.top-cartridge.ru 120 0,1 6
http://www.istra-hotels.ru 140 0.12 4
http://www.uprav.ru/seminars/list/2005/ 0 0 6
Среднее значение 452.78 0.375 4.89 0.815

* Рассчитывается делением среднего значения GPR всех ссылок в блоке — 4.89 к GPR страницы – 6.

Пример: Рассмотрим значения ТиЦ и GPR для блока ссылок размещённого на основной странице сайта mk.ru

Рисунок 42. Блок ссылок на главной странице сайта mk.ru (на 15.04.2009)

image084

Для главной страницы mk.ru значения:

  • ТиЦ – 15000
  • Google Toolbar PageRank — 5

Таблица 4. Таблица ТиЦ и GPR для блока ссылок с сайта mk.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://www.eurotest.ru/ 120 0.008 5
http://www.antiagemed.ru/ 10 0.00067 4
http://www.lazerklinika.ru 300 0.02 5
http://www.wilstream.ru/ 150 0.01 4
http://www.klimatdostavka.ru/ 375 0.025 5
http://www.fxpro.ru/ 275 0.018 6
http://www.botrans.ru 70 0.0047 5
http://www.nwbroker.ru 400 0.027 5
http://www.gerina.ru 30 0.002 4
http://g01.ru/ 350 0.023 3
Среднее значение 208 0.014 4.6 0.92

Среднее значение соотношения ТиЦ сайта доноров и сайтов реципиентов таково, что даже без наличия других факторов – все ссылки в блоке можно считать неестественными.

Пример: Рассмотрим значения ТиЦ и GPR для блока ссылок размещённого на основной странице сайта chelpress.ru

Рисунок 43. Блок ссылок на сайте chelpress.ru (на 15.04.2009)

image086

Для главной страницы chelpress.ru значения:

  • ТиЦ – 650
  • Google Toolbar PageRank — 5

Таблица 5. Таблица ТиЦ и GPR для блока ссылок с сайта chelpress.ru (на 15.04.2009)

Сайт ТиЦ Соотношение к ТиЦ донора Google Toolbar Pagerank (GPR) Соотншение к GPR донора*
http://www.74.ru/ 800 6
http://74mail.ru/ 210 5
http://www.aloepole.ru 210 4
http://www.chelmedia.ru/ 40 4
http://www.miass.ru/news/smi.php 950 6
http://www.apress.ru/publ/pok 800 5
http://www.diligance.ru/ 400 5
http://www.uralved.ru/ 60 0
http://www.segodnya.ru/ 950 5
http://www.mn.ru/ 3200 ?
http://www.izvestia.ru/ 17000 8
http://www.kp.ru/ 21000 4
http://www.commersant.ru/ (опечатка)
http://www.aif.ru/ 8600 7
http://www.ropnet.ru/ogonyok/ 2100 6
http://www.russ.ru/ 7900 7
http://www.pravda.ru/ 11000 7
http://www.gazeta.ru/ 22000 8
http://www.lenta.ru/ 22000 7
http://www.vesti.ru/ 15000 8
Среднее значение 7064 10.87 5.36 1.07

В блоке ссылок на chelpress.ru реципиентами являются ресурсы большая часть которых гораздо лучше продвинута в поисковых системах и имеют там большие рейтинги. При том что ряд ссылок могут требовать дополнительного внимания тем не менее общий рейтинг ссылочного блока позволяет отнести его скорее к блоку естественных ссылок чем к блоку ссылок продвигающих.

[E-002-003]. Посещаемость сайта-донора выше посещаемости сайта реципиента.

В случаях когда метрики поисковых систем такие как ТиЦ или PageRank недоступны одним из критериев сравнения «продвинутости» сайтов могут быть значения определяющие число посетителей сайта донора и сайта реципиента. Посещаемость может быть замеряна посредством одного из публично доступных счетчиков или с использованием API сервиса Alexa.com

Подобный анализ полезен в случаях недоступности метрик поисковых систем таких как ТиЦ или GPR, поскольку сами поисковые системы ограничивают к подобным метрикам доступ или же предоставляют их значения очень загрублёнными.

Пример: Если мы рассмотрим блок внешних ссылок с сайта zavtra.ru и для каждой внешней ссылки получим её Traffic Rank из системы Alexa, то мы можем увидеть что практически все сайты по этим ссылкам обладают в десятки раз меньшим трафиком чем сайт донор. Это позволяет нам отнести весь блок ссылок к неестественным, особенно при наличии дополнительных факторов это подтверждающих.

Для сайта zavtra.ru Alexa Traffic Rank – 67 075:

Таблица 6. Таблица Traffic Rank от alexa.com для блока ссылок с сайта zavtra.ru (на 15.04.2009)

Сайт Alexa Traffic Rank Соотношение к Traffic Rank донора
http://www.hdleasing.ru/ 1 292 771 0.052
http://www.the-roof.ru/ 1 305 513 0.051
http://www.autoglass-market.ru/ 1 696 379 0.039
http://www.facing-materials.ru/ 3 639 534 0.018
http://www.hyundai-auto.ru/ 3 022 322 0.022
http://www.cafematika.ru/ 6 260 203 0.011
http://www.light-flight.ru/ 169 400 0.396
http://www.balcon-master.ru/ 1 638 563 0.041
http://www.yudashkin-show.ru/ 5 479 625 0.012
http://www.gonetc.ru/ 698 869 0.096
http://www.target-m.ru/ 1 735 199 0.039
http://www.tech-perewod.ru/ 3 534 925 0.019
http://www.top-print.ru/ 1 841 017 0.036
http://www.deshevle.ru/ 128 487 0.522
http://www.santechnikaopt.ru/catalog_11.html/ 4 577 948 0.015
Среднее значение 2 468 050.3 0.027

[E-004-001].  Ссылка не указывает на HTML страницу.

Это правило основывается на том что SEO ссылки продвигают не какой-либо конкретный текстовый документ, музыкальный файл и архивный документ, а веб-сайт на который они указывают и наличие ссылки не на HTML страницу, а на документы обладающие другим форматом MIME является признаком естественности ссылки.

Это правило не абсолютно, поскольку уже сейчас поисковые системы умеют индексировать PDF документы и документы MS Office в которых также присутствуют ссылки, а также вполне возможно что в скором времени они научаться индексировать архивы, метаданные музыкальных файлов и файлов в прочих форматах, извлекая из них ссылки на другие веб-ресурсы и включая в свои алгоритмы расчёта индексов цитирования. Тем не менее это правило в дополнении с другими позволит отсеять значительное число ссылок не являющихся SEO ссылками.

[E-004-001].  Совпадение тем сайтов донора и реципиента.

Совпадение или несовпадение тем сайтов донора и реципиента — это один из, но не ключевой или решающий, признак естественности появления ссылки на ресурсе. Конечно, часто СЕО специалисты стараются размещать ссылки на тематически близких ресурсах, но чаще всего ссылки размещаются не только на тематических, но и на любых сайтах имеющих высокие ранги в поисковых системах.

Определение тематики сайтов – это отдельная и большая задача которая может решаться как вручную так и автоматически. В данном случае, при рассмотрении сайтов мы будем исходить из 2-х уровневой рубрикации

Пример: На сайте частной школы 1ABC (www.1abc.ru) присутствует блок ссылок на различные внешние ресурсы.

Рисунок 44. Блоки ссылок на сайте 1abc.ru (на 15.04.2009)

image088

Таблица 7. Соответствие тем внешних ресурсов сайту Pogoda.by

Сайт Тема Совпадение с темой сайта донора
http://www.gymnasia8.kz Образование::Школы Да
http://www.eurosuvenir.ru/index.php?categoryID=85 Товары::Сувениры Нет
http://www.santehnica.ru/ Товары::Сантехника Нет
http://www.povary.ru Кулинария Нет

Лишь одна из этих ссылок соответствует теме сайта, все остальные не соответствуют полностью.

Пример: На сайте частной школы Республиканского гидрометеоцентра Белоруси (www.pogoda.by) присутствует блок ссылок на различные внешние ресурсы.

Рисунок 45. Блоки ссылок на сайте pogoda.by (на 15.04.2009)

image090

Таблица 8. Соответствие тем внешних ресурсов сайту Pogoda.by

Сайт Тема Совпадение с темой сайта донора
http://www.lapka.com.ua/ Товары::Швейные машины Нет
http://www.forextrade.ru Финансы::Форекс Нет
http://www.kvartservis.ru Услуги::Аренда квартир Нет
http://www.diplomer.ru/ Услуги::Написание дипломов Нет

Ни одна из ссылок не соответствует теме сайта донора.

[E-004-002].  Смысловое расстояние между темами сайтов донора и реципиента.

Помимо совпадения и несовпадения тем сайтов существует ещё и такое понятие как «смысловое расстояние» которое является метрикой определения доли аудитории интересующейся одновременно темами сайта донора и сайта реципиента. Чем меньше доля этой аудитории, тем смысловое расстояние между двумя этими сайтами выше и тем нелогичнее наличие ссылки у одного сайта на другой.

[E-004-003].  Тематическая плотность ссылок в блоке внешних ссылок.

пока не завершено

[E-005-001].  Наличие у ссылки метрики отношения между сайтами донора и реципиента.

пока не завершено

About This Author

Яндекс.Метрика