Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда есть понимание что структуры хранимых данных однозначно будут меняться — это наилучший подход. Можно также подумать о Thrudb или HBase, но первый слабодокументирован, а второй откровенно тяжеловат.

О том как Скиур работает.

Скиур (в переводе с армянского «белка») — на самом деле это хвост от белки, но ещё не она сама. Публичный алгоритм — это упрощённая и сильно оптимизированная под скорость версия основного алгоритма автоматизированного анализа и восстановления структуры веб страниц в общем случае.

Основной Скиура является закрытая библиотека persimmon — это набор правил, структур, алгоритмов по анализу данных с нечёткой структурой или её отсутствием. Фактически эта библиотека началась как свалка мыслей по природе информации и экспериментам основанных на моих предыдущих исследованиях по этой теме, сейчас же именно в ней и находятся все те алгоритмы которые можно отнести к ноу-хау, по определению типов смысловых блоков, классификации ссылок, гео классификации плюс ряд других алгоритмов использованных в Скиуре.

Сюда входит как «сборка регулярных выражений», расчёт особых метрик для HTML тэгов, алгоритмы классификации и выявления микро-блоков в деревьях элементов.

Цена оптимизации в производительности и в ограничении применимости алгоритма только к новостным лентам, страницам где у записей есть даты.

В итоге я возьму на себя смелость в виде 3-х утверждений:

1. Возможно построение системы направленного индексирования без предварительной настройки её человеком под каждый новый тип ресурса.

2. Возможно создание систем направленного индексирования отслеживающих и учитывающих аномалии и изменения на анализируемых сайтах. Не автоматика, но значительная автоматизация

3. Возможно построение поисковых систем общего типа а ля Cuill с углублённым и автоматическим распознаванием смысла индексируемых данных и предоставлением различных форм поиска в зависимости от их типа.

Кто знает, может быть и моё хобби — Скиур один из шагов к достижению этих утверждений.

About This Author

Яндекс.Метрика