Посты за: Сентябрь, 2008

Softool 2008

Сегодня 30 сентября и по 3 октября я буду на выставке в 8-м павильоне, стенд E35 рядом со стендом ОГИЦ (Общероссийский Государственный Информационный Центр).

Если будете на выставке и есть темы для разговора милости прошу.

Читать больше

Магия множеств регулярных выражений

Моё знакомство с регулярными выражениями началось более чем давно, ещё в то время когда я активно встречал в кодах скриптов и использовал сам для подготовки скриптов при администрировании юникс серверов.

Признаться, особой любви к ним я никогда не испытвал. Лично мне никогда не нравился подобный способ «упаковки правил», иногда их просто

Читать больше

Интернет-СМИ и правовое поле

Читаю ссылки по предложению сенатора Владимира Слуцкера по созданию юридического определения термина Интернет-СМИ. Всё бы хорошо, может быть и идея с выводом блогов из этого термин мудра, но… прежде чем сказать Б надо сказать А.

Как можно писать про Интернет СМИ не дав вначале чёткого юридического определения что такое Интернет?

Можно вспомнить

Читать больше

Регулирование РУНЕТа как социальная сеть

В последнее время всё активнее обсуждают тему можно ли регулировать / модерировать Рунет или нет и что для этого нужно.

Внесу и мои 5 копеек. Проблема контроля и регулирования Рунета той же природы что и проблема модерирования крупных социальных сетей вроде Одноклассники, Вконтракте, Facebook и так далее. Эта проблема в необходимости

Читать больше

Некоторые результаты по Скиуру — превращению новостных страниц в RSS

Поскольку удалось поднять хотя бы часть информации с дисков,  удалось восстановить и часть результатов обновлённого алгорима Скиура.

Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов где было найдено 86 тысяч новостных сообщений. При этом анализировались только «морды сайтов», начальные

Читать больше

Регулярные выражения — материалы

Спасибо, всем кто накидал ссылок и материалов по теме, в данной записи я опишу собранное.

Вот некоторые публикации:

Скиур: технологическое

Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.

В проекте используется 3 технологии:

— CouchDb

— Python

— Django

Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.

Почему CouchDb? Потому как для подобного типа задач, когда

Читать больше

Скиур — первое обновление

Копия из анонса в skyur_project

Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем.

В это обновление вошли:
— поддержка 44 форматов дат (по сравнению с 20 в прошлой версии);
— поддержка дат обрамлённых текстом слева или справа, например, blog.lexa.ru
— ряд малых исправлений в точности интерпретации

Читать больше

Скиур запущен

Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru

Что такое Скиур?

Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их

Читать больше

Техническое: Решение с расчетом расстояния Левенштейна для исправления опечаток

Про эту задачку и что у неё есть решения я писал раньше и всё таки решил описать один из способов как её можно решить без использования n-gram.

Предупрежу заранее далее пойдёт техническое описание, я, по возможности, буду избегать использования формул и описывать всё своими словами.

Рассмотрим что у нас есть:

1. Слово, предположительно

Читать больше

Яндекс.Метрика