Копирайт, спам и блоги

Надо отдать должное поисковикам — найти «контентных воров» через них куда проще чем чем как-либо ещё, правда связано это не с качеством поиска, а с недостатным качеством — так как из индексной базы поисковика такие спамеры не исчезают иногда очень долгое время.

Например, недавно через Яндекс обнаружился вот такой сплог-аггрегатор

earth-news.ru/sites/i/ivan.begtin.name/

Что в нём характерно — так это создатель не просто обдирает RSS ленты, а ещё и «мутирует текст» переставляя слова, как результат выявление дубликатов по шинглам тут не срабатывает.

Какие можно сделать из этого выводы:
1. Спамеры пополняют арсенал приёмов и классические алгоритмы выявления поискового спама не будут работать в подобных случаях.
2. Алгоритм выявления дубликатов и сплого-аггрегаторов в Яндексе не срабатывает на таких ресурсах. Причём, похоже что, причина этого в том что он основан на «шинглах», здесь же перестановочная мутация.
3. С развитием семантических движков рано или поздно их освоят и спамеры и тогда уже даже семантического анализа текстов будет недостаточно.
4. Частота заимствования информации из одного ресурса в другой всё ближе подводит к мысли о необходимости формализации условий распространения. Не просто словесное уведомление о том что необходима ссылка или письменное разрешение, а структурированное описание доступное для выгрузки агрегаторами и иными ресурсами, с возможностью автоматического обнаружения и т.д.
Например, это можно сделать через метки Dublin Core, а также законодательная поддержка нарушения подобных условий.

P.S. В Рамблере, оказывается, этот же спам сайт также есть. Почему-то я не удивлён, а вот в Google есть, но не не находит там выгруженных из моего блога записей. Ещё одно подтверждение что проблема шире чем казалась и выявление спам-агрегаторов и сплогов имеет свои значительные отличия.

About This Author

Яндекс.Метрика