Не так давно, где-то с месяц назад в процессе экспериментов над алгоритмом Скиура — я таки нашёл для него первое практическое полезное применение, помимо, частного использования. Впрочем о проекте для которого Скиур будет использоваться я ещё напишу когда он будет готов, сейчас же о другом — о том как переводить полу-структурированную информацию из веб-страницы [...]
Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы. Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com
И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным принципом построения. Об этом [...]
В Скиуре, сервисе по извлечению новостей из HTML в формат RSS прошло очередное обновление.
Из-за проблем с нагрузкой, пришлось практически полностью переделать правила распознавания новостных лент, в частности отказаться и регулярных выражений преобразовав их в специальные парсеры и построив вокруг них ускоряющий индекс похожий на RETree, а ещё вернее его «симуляцию» тем не менее [...]
Как многие заметили в последнее время Скиур не распознавал многие из новостных страниц.
Основной проблемой этого являлась нарастающая нагрузка на и увеличивающееся число страниц для распознавания что и приводило к таймаутам и т.д. до ненахождения информации.
Чтобы решить эту проблему Скиур был довольно серьёзно изменён внутри:
— заменён парсер на более быстрый
[...]
Буквально несколько дней назад удалось выявить в Скиуре довольно неприятный баг и, частично его исправить. Проблема оказалась в том что мои предыдущие предположения что сервис подтормаживает на прогоне страницы по базе регулярных выражений, конечно были справедливы, но в значительной степени эту проблему удалось решить ещё раньше введя предварительную фильтрацию выражений по принципам которые я у [...]
Для тех кто может быть не знает, Скиур — мой небольшой экспериментальный проект продолжает жить, правда пока его развитие несколько притормозилось, но не от того что нет идей куда развивать, а поскольку есть другие не менее интересные проекты.
Цифры
Пока же приведу некоторые цифры:
- всего из активно используемых веб страниц имеется 2441 страница [...]
Проект продолжает развиваться и недавно обновился сразу в нескольких областях:
Внешние изменения
появился букмарклет для запуска распознавания новостей через браузер — его можно перетащить на панель закладок по перейдя по ссылке - http://www.skyur.ru/tools/ появился каталог ранее распознанных RSS лент - http://www.skyur.ru/catalog/ у проекта появилось API для проверки можно ли страницу/сайта преобразовать в RSS. Само API пока закрыто, [...]
Как пример того для чего Скиур может использоваться — в каталоге сайтов Енота Поискуна сейчас 2148 ссылок посвящённым тематике закупок и присутствия российского государства в сети.
В своё время, чтобы не делать каталог просто набором ссылок, для него был создан специальный скрипт который время от времени проходил по ресурсам в каталоге и занимался [...]
Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:
вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в Couchdb, а записи и [...]
Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.
—
Уровень тэга (tag level) — это характеристика тэга веб страницы определяющая [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


