Алгоритм выявления покупных ссылок. Часть 4. Вопросы
Размышляю о возможности раскрытия части алгоритма и исходного кода выявления платных ссылок о котором я писал ранее. Сам алгоритм состоит из двух частей — выявление ссылочных блоков и ранжирование найденных ссылок. В данном случае речь идёт о части с ранжированием.
Во-первых потому как уже есть понимание его текущих ограничений и как их обойти, но это займёт много времени на эксперименты. Если у меня будет время и желание ими заниматься.
Во-вторых хочеться услышать конструктивной критики читателей.
В-третьих алгоритм частично пересекается с публикацией Брайяна Дэвисона в 2000 году Recognizing nepotistic links in the Web. Вообще попадись мне эта публикация раньше, было бы скучно возиться с этим самому, но нет, впервые я её увидел всего 3 дня назад и оказывается не зря я это делал — некоторые отличия, специфичные для Рунета, есть в моём алгоритме. Ещё больше отличий в его версии о которую я уже понимаю как сделать, но это, действительно, будет небыстрый процесс. 2-4 месяца.
И, наконец, в четвёртых алгоритм является весовым по принципу «обратного ранжирования», порог отсечения по которому поисковая машина принимает окончательное решение о том является ли ссылка платной или нет она может задать сама, алгоритм лишь укажет на наиболее вероятных кандидатов.
Окончательного решения у меня пока ещё нет и, в любом случае, какое-то время ещё займёт подготовка формализованного (научного) описания и извлечение исходного кода из контекста всего проекта, который к работе с платными ссылками никак не соотносился.
Вопросы:
1. Есть ли интерес к подобным материалам у читателей?
2. Какую лицензию лучше выбрать для публикации, желательно с аргументами за?
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






