Копирайт, спам и блоги
Надо отдать должное поисковикам — найти «контентных воров» через них куда проще чем чем как-либо ещё, правда связано это не с качеством поиска, а с недостатным качеством — так как из индексной базы поисковика такие спамеры не исчезают иногда очень долгое время.
Например, недавно через Яндекс обнаружился вот такой сплог-аггрегатор
earth-news.ru/sites/i/ivan.begtin.name/
Что в нём характерно — так это создатель не просто обдирает RSS ленты, а ещё и «мутирует текст» переставляя слова, как результат выявление дубликатов по шинглам тут не срабатывает.
Какие можно сделать из этого выводы:
1. Спамеры пополняют арсенал приёмов и классические алгоритмы выявления поискового спама не будут работать в подобных случаях.
2. Алгоритм выявления дубликатов и сплого-аггрегаторов в Яндексе не срабатывает на таких ресурсах. Причём, похоже что, причина этого в том что он основан на «шинглах», здесь же перестановочная мутация.
3. С развитием семантических движков рано или поздно их освоят и спамеры и тогда уже даже семантического анализа текстов будет недостаточно.
4. Частота заимствования информации из одного ресурса в другой всё ближе подводит к мысли о необходимости формализации условий распространения. Не просто словесное уведомление о том что необходима ссылка или письменное разрешение, а структурированное описание доступное для выгрузки агрегаторами и иными ресурсами, с возможностью автоматического обнаружения и т.д.
Например, это можно сделать через метки Dublin Core, а также законодательная поддержка нарушения подобных условий.
P.S. В Рамблере, оказывается, этот же спам сайт также есть. Почему-то я не удивлён, а вот в Google есть, но не не находит там выгруженных из моего блога записей. Ещё одно подтверждение что проблема шире чем казалась и выявление спам-агрегаторов и сплогов имеет свои значительные отличия.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






