Скиур запущен

Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru

Что такое Скиур?

Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их в форматах RSS или ATOM максимально приближенной к той которую сайт мог бы отдавать самостоятельно.

Какова точность распознавания?

Сейчас для того чтобы восстановить новость алгоритму необходимо чтобы у каждой новостной записи присутствовала дата в поддерживаемом им формате. На сегодняшний день алгоритм поддерживает более 20 форматов дат и, по мере обнаружения, подключаются новые форматы. Если Вы уверены что на новостной странице даты присутствуют, но алгоритм не может восстановить новости с этой страницы — дайте мне знать, возможно что эта проблема имеет очень быстрое решение.

Предварительные проверки алгоритма

Примерно 22 000 сайтов по которым  алгоритм проверялся, он успешно выявляет новостные блоки  с головных страниц у  4600.  При направленном анализе новостных страниц этих же сайтов, цифры будут ещё точнее.

Каков статус проекта?

Скиур, в текущем виде — это заведомо некоммерческий проект. Возможно что в будущем в той или иной форме он будет подвергаться коммерциализации и показу рекламы, но врядли это будет скоро, если будет вообще. Целью вывода алгоритма и сервиса на публику является апробация технологии реальными пользователями и накопление экспериментальных данных для дальнейшего его усовершенствования, соответственно сам сервис предоставляется AS IS.

Частота обновления

Сейчас частота обновления страниц составляет 2 часа. В дальнейшем, в зависимости от числа страниц, эти цифры могут меняться, но не более чем в пределах 1 суток. Всё это связано как с трафиком, так и с производительностью алгоритма. При необходимости более частых обновлений, можно связаться со мной и договорится об отдельном сервисе с более частым обновлением.

Юридические аспекты

Сервис предназначен для личного и некоммерческого использования с оговоркой на то что вебмастера могут использовать его для генерации своих RSS лент, но при трансляциях и агрегациях лент на коммерческие сайты могут применятся меры по блокировке выгрузки подобных обращений. Соответственно, вся ответственность за использование содержимого сайтов полностью лежит на пользователе как конечном потребителе информации.

Сообщество

В Livejournal было создано сообщество skyur_project в котором далее и будут происходить анонсы развития сервиса. Приходите, обсуждайте, оставляйте замечания и пожелания.

Примеры:

About This Author

  • suvit

    Клева, работает!!!

  • VictorS

    хорошая идея но слабенько с распознаванием.годиться для использования в частных случаев. наверное было бы ефективно задействовать статистику для отслежывания изменений.

  • exdeniz

    Спасибо, работает. Теперь главное не забыть URL когда news встретится без RSS :)

  • http://ivan.begtin.name ivbeg

    2VictorS: Именно по этой причине сервис и доступен публично — идёт сбор статистики как распознанного так и нераспознанного

Яндекс.Метрика