Скиур. Обновления

Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:

  • вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в Couchdb, а записи и ленты в MySQL;
  • теперь доступен каталог RSS лент — перечень текущих успешно распознаваемых Скиуром лент;
  • небольшие улучшения производительности;
  • добавлена поддержка формата даты «dd.mm» без указания года, при этом год автоматически проставляется текущий.

И существующие баги/особенности:

  • выявилось что в некоторых случаях Скиур не определяет автоматически структуру веб страницы даже когда распознаёт даты. Например, так не распознаются даты на странице Росгидромета — http://www.meteorf.ru/default.aspx. Причина пока неясна, но обязательно выяснится. 
  • пока не решена окончательно задача по распознаванию всех возможных видов дат;
  • примерно в 3% случаех кодировка веб страницы не распознаётся. 
About This Author

Яндекс.Метрика