Скиур: технологическое
Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.
В проекте используется 3 технологии:
- CouchDb
- Python
- Django
Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.
Почему CouchDb? Потому как для подобного типа задач, когда есть понимание что структуры хранимых данных однозначно будут меняться — это наилучший подход. Можно также подумать о Thrudb или HBase, но первый слабодокументирован, а второй откровенно тяжеловат.
О том как Скиур работает.
Скиур (в переводе с армянского «белка») — на самом деле это хвост от белки, но ещё не она сама. Публичный алгоритм — это упрощённая и сильно оптимизированная под скорость версия основного алгоритма автоматизированного анализа и восстановления структуры веб страниц в общем случае.
Основной Скиура является закрытая библиотека persimmon — это набор правил, структур, алгоритмов по анализу данных с нечёткой структурой или её отсутствием. Фактически эта библиотека началась как свалка мыслей по природе информации и экспериментам основанных на моих предыдущих исследованиях по этой теме, сейчас же именно в ней и находятся все те алгоритмы которые можно отнести к ноу-хау, по определению типов смысловых блоков, классификации ссылок, гео классификации плюс ряд других алгоритмов использованных в Скиуре.
Сюда входит как «сборка регулярных выражений», расчёт особых метрик для HTML тэгов, алгоритмы классификации и выявления микро-блоков в деревьях элементов.
Цена оптимизации в производительности и в ограничении применимости алгоритма только к новостным лентам, страницам где у записей есть даты.
В итоге я возьму на себя смелость в виде 3-х утверждений:
1. Возможно построение системы направленного индексирования без предварительной настройки её человеком под каждый новый тип ресурса.
2. Возможно создание систем направленного индексирования отслеживающих и учитывающих аномалии и изменения на анализируемых сайтах. Не автоматика, но значительная автоматизация
3. Возможно построение поисковых систем общего типа а ля Cuill с углублённым и автоматическим распознаванием смысла индексируемых данных и предоставлением различных форм поиска в зависимости от их типа.
Кто знает, может быть и моё хобби — Скиур один из шагов к достижению этих утверждений.
Поделиться в соц. сетях
-
zevlg
-
http://ivan.begtin.name ivbeg
-
zevlg
-
zevlg
-
zevlg
-
http://mykosmetika.info/ Zigic
-
http://ivan.begtin.name ivbeg
-
tasman
-
http://ivan.begtin.name ivbeg
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






