Посты в категории: %d1%81%d0%ba%d0%b8%d1%83%d1%80

Анализ веб-страниц, выявление новостей и не только

Не так давно, где-то с месяц назад в процессе экспериментов над алгоритмом Скиура — я таки нашёл для него первое практическое полезное применение, помимо, частного использования. Впрочем о проекте для которого Скиур будет использоваться я ещё напишу когда он будет готов, сейчас же о другом — о том как

Читать больше

Обновление алгоритма в Скиуре

В Скиуре, сервисе по извлечению новостей из HTML в формат RSS прошло очередное обновление.

Из-за проблем с нагрузкой, пришлось практически полностью переделать правила распознавания новостных лент, в частности отказаться и регулярных выражений преобразовав их в специальные парсеры и построив вокруг них ускоряющий индекс похожий на RETree, а ещё вернее его

Читать больше

Техническое. Почему Скиур иногда подтормаживает

Буквально несколько дней назад удалось выявить в Скиуре довольно неприятный баг и, частично его исправить. Проблема оказалась в том что мои предыдущие предположения что сервис подтормаживает на прогоне страницы по базе регулярных выражений, конечно были справедливы, но в значительной степени эту проблему удалось решить ещё раньше введя предварительную фильтрацию

Читать больше

Новое в Скиуре

Проект продолжает развиваться и недавно обновился сразу в нескольких областях:

Внешние изменения

  • появился букмарклет для запуска распознавания новостей через браузер — его можно перетащить на панель закладок по перейдя по ссылке — http://www.skyur.ru/tools/
  • появился каталог ранее распознанных RSS лент — http://www.skyur.ru/catalog/ 
  • у проекта появилось API для проверки можно ли страницу/сайта преобразовать в RSS. Само API пока

    Читать больше

Скиур. Обновления

Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:

  • вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в

    Читать больше

HTML в RSS: Google Reader vs Скиур.

Вчера в блоге Google Reader’а появился пост что теперь он поддерживает создание RSS лент из любой веб страницы.  Это хотя и не новая, но полезная возможность уже реализованная в таких сервисах как Page2RSS, ChangeDetection.com

И, собственно, есть мой сервис Скиур (www.skyur.ru) с похожими возможностями, но принципиально иным

Читать больше

Обновление Скиура

Как многие заметили в последнее время Скиур не распознавал многие из новостных страниц.
Основной проблемой этого являлась нарастающая нагрузка на и увеличивающееся число страниц для распознавания что и приводило к таймаутам и т.д. до ненахождения информации.

Чтобы решить эту проблему Скиур был довольно серьёзно изменён внутри:
— заменён парсер на более

Читать больше

Скиур: некоторые цифры и развитие

Для тех кто может быть не знает, Скиур — мой небольшой экспериментальный проект продолжает жить, правда пока его развитие несколько притормозилось, но не от того что нет идей куда развивать, а поскольку есть другие не менее интересные проекты.

Цифры

Пока же приведу некоторые цифры:

— всего из активно используемых веб страниц имеется

Читать больше

Скиур и построение объектных сайтов карт в действии

Как пример того для чего Скиур может использоваться — в каталоге сайтов Енота Поискуна сейчас 2148 ссылок посвящённым тематике закупок и присутствия российского государства в сети.

В своё время, чтобы не делать каталог просто набором ссылок, для него был создан специальный скрипт который время от времени проходил по ресурсам

Читать больше

Метрики для анализа HTML

 

Я ранее неоднократно писал что при анализе HTML (да и любых других неструктурироанных/полуструктурированных данных) очень важен правильный подбор метрик для анализа. Часть из этих метрик и многие другие используются в Скиуре и ещё ряде алгоритмов анализа HTML о которых я ранее упоминал.

  Уровень тэга (tag level) — это характеристика тэга веб

Читать больше

Яндекс.Метрика