Посты в категории: %d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b

Ещё немного о магии цифр. Расшифровка кодов и чисел

Продолжая тему «расшифровки реальности» приведу продолжу приводить некоторые примеры того какие бывают коды и как их расшифровывают.

Дополнительно, очень важно понимать что коды бывают двух типов. Справочные коды и реестровые записи. В чём отличие?

Cправочный код — это код ведомый редко пополняемый и находящийся в справочники некого фиксированного размера где по уникальному

Читать больше

Скиур. Новые примеры извлечения новостей

Дополняя примеры сайтов с которыми умеет работать Скиур создавая RSS ленту из новостной веб страницы. В этот раз сайты посольств и международных организаций.

Особенности Скиура: редиректы

Тем кто активно пользуется Скиуром- сервисом создания RSS из HTML будет важно знать что сервис извлекает новостную ленту из конкретной HTML страницы, а не из сайта в общем случае.

Так если Вы вводите адрес сайта, а он на самом деле делает редирект на другую страницу, то Скиур не стработает. Сейчас,

Читать больше

Тематическая классификация веб сайтов

Зачем это нужно, я думаю, объяснять ненужно.

Но как происходит тематическая классификация? Какие использовать алгоритмы и на что обратить внимание?

По сути способов много и они варьируются от очень простых до довольно сложных.

1. Ручная классификация

Нанимается группа аналитиков, каждому даётся своя выборка ресурсов и они последовательно открывают каждый и вбивают в систему. Стоимость

Читать больше

Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда

Читать больше

Ссылки на 13.11.2008. Complex Event Processing

Поиск дубликатов изображений

Поразмышляв как можно было бы реализовать поиск дубликатов изображений, а ля то что сделали в Яндекс, просуммирую мои мысли как это можно реализовать.

Заранее предупрежу что никакой строгой логики или формального изложения тут нет.

Какие шаги необходимо предпринять:

1. Создание «профилей изображений» — базы метаданных по каждому на основе которой можно было бы

Читать больше

Направленное индексирование и вертикальные поиски: специфика и особенности

Как человек единожды создавший вертикальный поисковик Енот Поискун по весьма специфичной области, я могу рассказывать по этой теме достаточно долго.

Ранее в блоге я уже публиковал свои рассуждения на эту тему сейчас же остановлюсь на особенностях построения вертикальных поисковых систем и сфокусированного поиска.

Начну с того что важно понимание того что

Читать больше

Магия множеств регулярных выражений

Моё знакомство с регулярными выражениями началось более чем давно, ещё в то время когда я активно встречал в кодах скриптов и использовал сам для подготовки скриптов при администрировании юникс серверов.

Признаться, особой любви к ним я никогда не испытвал. Лично мне никогда не нравился подобный способ «упаковки правил», иногда их просто

Читать больше

Скиур запущен

Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru

Что такое Скиур?

Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их

Читать больше

Яндекс.Метрика