«Шинглопринтинг». Материалы и по выявлению близких подобий

Ссылки:

Вообще же оказалось что термин весьма редкий. При том что сама тема выявления близких подобий весьма актуальна как для классических поисковых систем, так и для решений анти-плагиата (и борьбе с антиплагиатом тоже). Проблема в том что все существующие методы работают лишь в условиях отсутствия злонамеренного дублирования не вникая в состав анализируемых данных. С точки зрения производительности и работы с огромными банками данных — это и правильно. А вот с точки зрения потенциального семантического полиморфинга (semantic text polymorphing) это поможет не очень. Проблема в том что развитие анализа текстов с использованием того же WordNet если не позволяет, то позволит уже вскоре проводить «интеллектуальный копипаст» с заменой фраз / словосочетаний и слов на синонимичные. В итоге классический шинглопринтинг придётся заменять на смысловой шинглопринтинг (semantic shingleprint). 

Впрочем это вопрос следующих 2-3 лет.

About This Author

Яндекс.Метрика