Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда есть понимание что структуры хранимых данных однозначно будут меняться — это наилучший подход. Можно также подумать о Thrudb или HBase, но первый слабодокументирован, а второй откровенно тяжеловат.

О том как Скиур работает.

Скиур (в переводе с армянского «белка») — на самом деле это хвост от белки, но ещё не она сама. Публичный алгоритм — это упрощённая и сильно оптимизированная под скорость версия основного алгоритма автоматизированного анализа и восстановления структуры веб страниц в общем случае.

Основной Скиура является закрытая библиотека persimmon — это набор правил, структур, алгоритмов по анализу данных с нечёткой структурой или её отсутствием. Фактически эта библиотека началась как свалка мыслей по природе информации и экспериментам основанных на моих предыдущих исследованиях по этой теме, сейчас же именно в ней и находятся все те алгоритмы которые можно отнести к ноу-хау, по определению типов смысловых блоков, классификации ссылок, гео классификации плюс ряд других алгоритмов использованных в Скиуре.

Сюда входит как «сборка регулярных выражений», расчёт особых метрик для HTML тэгов, алгоритмы классификации и выявления микро-блоков в деревьях элементов.

Цена оптимизации в производительности и в ограничении применимости алгоритма только к новостным лентам, страницам где у записей есть даты.

В итоге я возьму на себя смелость в виде 3-х утверждений:

1. Возможно построение системы направленного индексирования без предварительной настройки её человеком под каждый новый тип ресурса.

2. Возможно создание систем направленного индексирования отслеживающих и учитывающих аномалии и изменения на анализируемых сайтах. Не автоматика, но значительная автоматизация

3. Возможно построение поисковых систем общего типа а ля Cuill с углублённым и автоматическим распознаванием смысла индексируемых данных и предоставлением различных форм поиска в зависимости от их типа.

Кто знает, может быть и моё хобби — Скиур один из шагов к достижению этих утверждений.

About This Author

  • zevlg

    для сайта fedor.bel.ru скиур работает не совсем корректно, хотя, конечно, понять можно почему, но …

  • http://ivan.begtin.name ivbeg

    Я вижу что некорректно только то что в одной из записей попадает текст скрипта — это легко поправимо. А ещё где некорректно?

  • zevlg

    да это, и даты сдвигаются из-за этого, вводит в заблуждение

  • zevlg

    ой, я хотел сказать, что первая новость не отображается и даты из-за этого сдвигаются, что вводит в заблуждение

  • zevlg

    о, кстати, только что заметил, что и ссылки не на те новости формируются из-за сдвига

    вообще Скиур очень полезная вещь, хотя идея не нова, но реализация и представление отлично, спасибо за вклад

  • http://mykosmetika.info/ Zigic

    Да конечно из за сдвига даты это доставляет неоктрые неудобства, а так все хорошо , спс

  • http://ivan.begtin.name ivbeg

    2Zigic: Можете привести примеры где дата сдвигается?

  • tasman

    > Можно также подумать о Thrudb или HBase, но первый слабодокументирован, а второй откровенно тяжеловат.

    А разве CouchDB нормально документирован? Всё что я нашел — это набор wiki страничек, часто с неполной и устаревшей информацией. Или я что-то пропустил?

  • http://ivan.begtin.name ivbeg

    По сравнению с другими подобными продуктами даже эти wiki странички весьма неплохи. К тому же часть информации есть в багтрекере Couchdb.

Яндекс.Метрика