Анализ ссылок — окончательные итоги
Подводя черту под всем что я ранее писал про выявление поискового спама, задачи которую я лично рассматриваю лишь как малое подмножество понимание связей между ресурсами вцелом и автоматической структуризацией информации, так вот итоги которые я могу назвать если не окончательными, то завершающими мой основной интерес к теме.
Всё что я писал про выявление ссылок в контексте, возможностей повышения точности выявления спама до 90% полностью подверждается. Завершив теоретическую часть этого исследования и закончив эксперименты с включением уже всех основных правил отсева не только естественных ссылок, но и спама (более 40 правил суммарно) могу сказать что эта задача абсолютно решаема. Вопрос лишь в желании поисковых систем эту задачу решить.
Некоторые итоги:
1. В среднем, как естественные ссылки выявляется до 60% от общего числа ссылок и 80% от числа всех естественных ссылок на странице.
2. Среднее число спам ссылок варьируется от 10-35% от общего числа в зависимости от тематики и посещаемости сайта.
3. Алгоритм гарантированно отсекает от 45 до 65% спам ссылок от общего их числа, при этом ошибки возникают лишь в 4-6% случаев. То есть из 253 ссылок помеченных как явный спам в блогах, лишь 10 им не являлись. Для новостных сайтов из 213 помеченных как спам, не были им лишь 3 ссылки. Часть этих ошибок проистекает из уже известных изъянов правил, которые также ясно как исправлять.
4. Алгоритм разбора и анализа работает медленно, особенно при первоначальном анализе страницы и сайта, он может занять до 1 минуты. При предварительном обучении, повторный анализ страницы редко занимает больше 20 секунд. Производительность, в любом случае, не являлась самоцелью, целью была полнота картины.
5. Ряд малых экспериментов показал что ценой ещё большего замедления работы алгоритма гарантированно может быть выявлено до 80% спам-ссылок даже только с учётом уже имеющихся данных.
6. Часть правил, к моему великому сожалению, пока не поддаются полной автоматизации и их эффективность зависит от наличия аналитика способного тратить в день хотя бы пару часов на корректировку параметров.
7. Все применяемые правила крайне просты математически и сложны огранизацией связей данных. Мои записи о формировании единой модели и эти эксперименты связаны самым непосредственным образом. Это не PageRank, не нейросети и, даже, во всяком случае пока не нечёткая логика — скорее это мини-Семантический Веб. Если алгоритм начать использовать без накопленной информационной базы — его качество работы упадёт раза в два.
8. При возможности расширения информационной модели данными которыми обладают только поисковые машины — доступ к поисковой выдаче, время появления ссылки в индексе, PageRank сайта и страницы и многое другое позволит довести точность выявления явного спама до 95-99%.
9. Да, выявление ссылки в контексте возможно и такие ссылки успешно выявляются.
10. Алгоритм эффективно работает только в Рунете и на русскоязычных сайтах. Причин много, главная — РуНет невелик и предсказуем.
Мои личные итоги — тема мне слегка поднадоела. Наверное, где-то в июне я всё же найду время и переборю лень чтобы оформить результаты в человеческом виде, отчёт с графиками и проче и прочее, но явной коммерческой применимости у этой частной задачи не наблюдается. Есть, и более актуальные задачи, и то что интересует меня более всего — автоматизация выявления правил обработки неструктурированных данных в общем случае.
Засим по этой теме информационный перерыв, скорее всего длительный.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






