Сегодня 30 сентября и по 3 октября я буду на выставке в 8-м павильоне, стенд E35 рядом со стендом ОГИЦ (Общероссийский Государственный Информационный Центр).
Если будете на выставке и есть темы для разговора милости прошу.
Спасибо, всем кто накидал ссылок и материалов по теме, в данной записи я опишу собранное.
Вот некоторые публикации:
Wu, Manber «A Fast Algorithm For Multi-Pattern Searching» — описание алгоритма и его реализации в виде Agrep с построением NFA на базе регулярных выражений.
Публикации Gonzalo Navaro и nrgrep — развитие алгоритма [...]
Моё знакомство с регулярными выражениями началось более чем давно, ещё в то время когда я активно встречал в кодах скриптов и использовал сам для подготовки скриптов при администрировании юникс серверов.
Признаться, особой любви к ним я никогда не испытвал. Лично мне никогда не нравился подобный способ «упаковки правил», иногда их просто сложно читать. Гораздо позже [...]
Поскольку уже было несколько вопросов о том на чём Скиур основан и как работает приведу некоторые подробности.
В проекте используется 3 технологии:
- CouchDb
- Python
- Django
Насколько я знаю, в России, это первое практическое использование CouchDb, но рад буду ошибиться если кто-либо приведёт примеры обратного.
Почему CouchDb? Потому как для подобного типа задач, [...]
Читаю ссылки по предложению сенатора Владимира Слуцкера по созданию юридического определения термина Интернет-СМИ. Всё бы хорошо, может быть и идея с выводом блогов из этого термин мудра, но… прежде чем сказать Б надо сказать А.
Как можно писать про Интернет СМИ не дав вначале чёткого юридического определения что такое Интернет?
Можно вспомнить что до сих [...]
Копия из анонса в skyur_project
Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем.
В это обновление вошли:
— поддержка 44 форматов дат (по сравнению с 20 в прошлой версии);
— поддержка дат обрамлённых текстом слева или справа, например, blog.lexa.ru
— ряд малых исправлений в точности интерпретации [...]
В последнее время всё активнее обсуждают тему можно ли регулировать / модерировать Рунет или нет и что для этого нужно.
Внесу и мои 5 копеек. Проблема контроля и регулирования Рунета той же природы что и проблема модерирования крупных социальных сетей вроде Одноклассники, Вконтракте, Facebook и так далее. Эта проблема в необходимости в огромном и постоянно [...]
Как я и обещал и даже с некоторым опережением Скиур запущен и доступен всем желающим по ссылке http://www.skyur.ru
Что такое Скиур?
Скиур — это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их в форматах RSS [...]
Поскольку удалось поднять хотя бы часть информации с дисков, удалось восстановить и часть результатов обновлённого алгорима Скиура.
Суммарно по результату анализа 22 000 сайтов, новостные ленты были обнаружены у 4 600. Что порядка 21% от всех ресурсов где было найдено 86 тысяч новостных сообщений. При этом анализировались только «морды сайтов», начальные страницы, а при использовании [...]
Про эту задачку и что у неё есть решения я писал раньше и всё таки решил описать один из способов как её можно решить без использования n-gram.
Предупрежу заранее далее пойдёт техническое описание, я, по возможности, буду избегать использования формул и описывать всё своими словами.
Рассмотрим что у нас есть:
1. Слово, предположительно с опечаткой, [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


