Прежде чем продолжить рассуждения, а что же такое данные с нечеткой структурой? Начну с примера.
При преобразовании HTML в RSS, как, например, это происходит в Скиуре, очень часта ситуация когда структура данных меняется. Это может быть из-за того что немного подкрутили верстку или, к примеру, у новости появилась метка которая при обучении на данных сайта не [...]
Как пример, промежуточных результатов, для построения RE-индексов под катом график и краткое описание индекса.
Как резюме предыдущих рассуждений — ускорение matching для регулярных выражений в 8-10 раз достижимо и зависимость времени далека от O(mn) и сильно зависит от содержимого коллекции выражений и потока данных, впрочем, это я уже упоминал. Осталось только довести прототип до ума, но сам он уже работает именно с такой производительностью.
В любом случае производительность превышает [...]
Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до 171, тем не менее без [...]
Для тех кто хочет получать новости по своему институту примеры того как можно использовать дя этой цели Скиур.
Московский государственный университет — http://www.skyur.ru/?url=http%3A%2F%2Fmosgu.ru%2Fpress-tsentr%2Fnews_university%2F РГАУ-МСХА — http://www.skyur.ru/?url=http%3A%2F%2Fwww.timacad.ru%2F Государственный университет управления — http://www.skyur.ru/?url=http%3A%2F%2Fguu.ru%2Findex.php ВАВТ — http://www.skyur.ru/?url=http%3A%2F%2Fwww.vavt.ru%2Fwww%2Fmain.nsf Московский институт открытого образования — http://www.skyur.ru/?url=http%3A%2F%2Fwww.mioo.ru%2F Московский банковский институт — http://www.skyur.ru/?url=http%3A%2F%2Fwww.mbinst.ru%2F%3FSHOWALL_1%3D1
Дополняя примеры сайтов с которыми умеет работать Скиур создавая RSS ленту из новостной веб страницы. В этот раз сайты посольств и международных организаций.
Новости ООН (на основном сайте) — http://www.skyur.ru/?url=http%3A%2F%2Fwww.un.org%2Frussian%2Fnews%2F Новости Юнеско — http://www.skyur.ru/?url=http%3A%2F%2Ftypo38.unesco.org%2Fru%2Funesco-home.html Заседания совета экспертных групп СНГ — http://www.skyur.ru/?url=http%3A%2F%2Fwww.cis.minsk.by%2Fmain.aspx%3Fuid%3D48 Новости посольства Казахстана в России — http://www.skyur.ru/?url=http%3A%2F%2Fwww.kazembassy.ru%2Fpress_service%2Fnews%2F Новости [...]
Некоторые из сайтов на которых я тренировал точность распознавания Скиура.
Сайты ФОИВ
Новости Рослесхоза — http://www.skyur.ru/?url=http%3A%2F%2Fles.mnr.gov.ru%2F Новости Роспрома — http://www.skyur.ru/?url=http%3A%2F%2Fnews.rosprom.org%2Fnews.php Новости Федеральной службы по природопользованию — http://www.skyur.ru/?url=http%3A%2F%2Fcontrol.mnr.gov.ru%2F Новости Федерального агенства по образованию — http://www.skyur.ru/?url=http%3A%2F%2Fwww.ed.gov.ru%2Fnews%2Fobnews%2F Новости МинРегиона — http://www.skyur.ru/?url=http%3A%2F%2Fwww.minregion.ru%2FWorkItems%2FListNews.aspx%3FPageID%3D378 Новости Ростимущества — http://www.skyur.ru/?url=http%3A%2F%2Fwww.rosim.ru%2Fpressa%2Fevents%2F Новости Федерального Космического Агенства — http://www.skyur.ru/?url=http%3A%2F%2Fwww.federalspace.ru%2FNewsDoSele.asp%3FRazdelID%3D3 [...]
Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.
В проекте используется 3 технологии:
- CouchDb
- Python
- Django
Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.
Почему CouchDb? Потому как для подобного типа задач, [...]
Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru
Что такое Скиур?
Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их в форматах RSS [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


