Как и обещал публикую документ описания алгоритма.
Выявление групп платных ссылок в сети Интернет
Альтруизма в данной публикации немного, так как уже есть понимание ограничений алгоритма и того что нужно для их преодоления, поэтому в документе не все критерии которые я считаю важными при отсеве естественных и неестественных ссылок, но значительная их часть. Также, предупрежу сразу, эффективная работа алгоритма требует лгоритма выявления ссылочных блоков, который я, пока, публиковать не планирую — впрочем у большинства поисковых машин такие алгоритмы есть.
Исходный код, если будет, то позже — сейчас и описанных в документе критериев и алгоритма достаточно для его воспроизведения.
За этим мой интерес к явлению платных ссылок, на ближайшее время, минимизируется — есть много актуальной и интересной работы по другим темам.
P.S. По ссылке http://urlus.ru/linkcheck/ работает этот же алгоритм, но уже с некоторыми дополнительными критериями. Итоговый групповой вес блока ссылок который выдаёт урлус может существенно отличаться от описанного в документе, в то же время логика работы изменилась не сильно.
Поделиться в соц. сетях
-
http://press-reliz.blogspot.com/ KBG
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






