Посты в категории: %d1%81%d0%ba%d0%b8%d1%83%d1%80

Работа с данными с нечеткой структурой

Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.

При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая

Читать больше

Алгоритмы. Регулярные выражения — Know how

Как резюме предыдущих рассуждений — ускорение matching для регулярных выражений в 8-10 раз достижимо и зависимость времени далека от O(mn) и сильно зависит от содержимого коллекции выражений и потока данных, впрочем, это я уже упоминал. Осталось только довести прототип до ума, но сам он уже работает именно с такой производительностью.

В

Читать больше

Скиур. RSS ленты новостей университетов

Для тех кто хочет получать новости по своему институту примеры того как можно использовать дя этой цели Скиур.

Читать больше

Подборка RSS лент ФОИВов из Скиура

Некоторые из сайтов на которых я тренировал точность распознавания Скиура.

Сайты ФОИВ

Скиур запущен

Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru

Что такое Скиур?

Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их

Читать больше

Скиур — развитие и регулярные выражения

Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до

Читать больше

Скиур. Новые примеры извлечения новостей

Дополняя примеры сайтов с которыми умеет работать Скиур создавая RSS ленту из новостной веб страницы. В этот раз сайты посольств и международных организаций.

Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда

Читать больше

Яндекс.Метрика