Пособирав в последнее время все имеющиеся материалы прихожу к выводу что на пару книг у меня их хватит. А если писать активно, а не как сейчас — 2-3 страницы в день, то и на большее число.
Тем, в принципе много, но конкретно сейчас есть желание завершить книгу которую я начал ещё в середине 2008 года [...]
Скиур, экспериментальный проект по извлечению новостей из HTML обновился. Основные изменения были внутренними, но кое что будет заметно и пользователям сервиса:
вместо Couchdb теперь используется связка Couchdb + MySQL. Couchdb, конечно, прекрасный продукт, но производительность его пока оставляет желать лучшего. Поэтому иерархические данные, такие как веб страницы краулера хрянятся в Couchdb, а записи и [...]
В продолжение моего поста по расшифровке БИК, расчетного и корреспондентского счетов — теперь эта же расшифровка доступна внутри Енота Поискуна посредством инструмента по расшифровке счетов кредитных организаций. Примеры расшифровки можно посмотреть такой 30401810701200001022 или такой 40402810500000000009
Работает всё это на нескольких несложных справочниках главная морока с которыми — это их обновление и поддержание в [...]
Вдогонку к посту Расшифровка кодов ИНН, КПП и других ноября 2008 года, я всё таки решился и понял что сервис проверки кодов необходим и сделать его не очень сложно, главное было понять как именно он должен выглядеть и как представлять информацию по расшифровке отдельных и идентификации организаций.
В итоге в составе Енота появился Сервис расшифровки [...]
В том что касается онтологии веб и задач классификации — я несколько раз касался этой темы ранее в публикации «Эффективное геокодирование данных» и метапосте с полным перечнем моих заметок и рассуждений.
Я чуть подробнее остановлюсь на том что же являлось основной моих рассуждений и общем подходе к классификации который далёк от [...]
Поскольку меня довольно часто спрашивают как работает тот или иной алгоритм о которых я здесь пишу — я распишу подробнее что и почему, за исключением тех вопросов которые относятся к know-how.
Для начала к вопросу о том для чего это нужно и лишь потом что это такое. На самом деле задач для алгоритмов выявления смысловых [...]
Вдогонку к рассуждениям о анализе регулярных выражений упомяну инструменты которые для этого полезны.
Задача которую я затрагивал в предыдущем посте, конечно, решаема и даже понятно как её решать, вопрос лишь во времени и в оценке достаточности решения для решаемых задач.
Например, лично я считаю что рассматривая регулярные выражения с целью их индексирования необходимо забыть про DFA и NFA и не вспоминать столь долго сколь это только возможно.
Для [...]
Хотя я давно не писал про Скиур, который экспериментальный ресурс и алгоритм по преобразованию веб-страниц в RSS, тем не менее не забыл о нём. Сейчас основная загвоздка в его развитии алгоритмическая поскольку несмотря на то что мне удалось частично оптимизировать используемые внутри регулярные выражения и уменьших их число до 171, тем не менее без [...]
За что я люблю тему IR — так это только приготовление (и поедание) пищи может сравниться в разнообразности и возможности занять свободное время.
Ещё одна порция ссылок и размышлений, на сей раз по индексированию регулярных выражений.
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


