Появился исходный код Gridworks — http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.
И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с [...]
Буквально сегодня Александр Пироженко, руководитель Департамента по развитию конкуренции и анализу конъюнктуры цен у себя в блоге написал про то что вышел доклад по ценам в 2009 году.
Процитирую:
Вчера из типографии доставили свежий и красивый «Доклад по ценам в 2009 году. Стабилизация под воздействием спроса и конкуренции». В количестве 500 экз. Наконец-то мы [...]
В Гослюдях много небольших, но заметных обновлений. Целиком приводить не буду, лучше почитать на Полит.Ру тут — http://www.polit.ru/country/2010/03/30/goslyudi.html
Остановлюсь же на главном. Итак что нового:
1. Появились разделы фото www.goslyudi.ru/photos и видеоленты — www.goslyudi.ru/video/ где размещаются последние видео и фотографии из блогов гослюдей. В каждом из разделов есть есть RSS лента [...]
Игорь Артамонов буквально вот-вот запустил сайт http://www.datasetpublisher.com/ где будут публиковаться torrent’ы открытых данных которыми бы хотелось поделиться и которые хотелось бы скачать.
Пока данных там немного, но уверен что будет больше нашими совместными усилиями.
Плюс если Вы какие-то данные ищите и они публичны можно, например, отписаться мне и я буду выкладывать их и [...]
Почти год назад я писал на эту тему в заметке Систематизация расшифровки кодов и управления справочниками, а сейчас продолжу приостановленные тогда размышления.
Если вкратце, то основной постулат такой — подавляющее число маркирующих кодов и уникальных идентификаторов создаются по ограниченному числу правил и подлежат разложению на ряд признаков позволяющих связывать эти коды с другими информационными [...]
Недавно обнаружил в блоге у Mencius Moldbug довольно интересное мнение про Wolfram Alpha. Жаль не прочитал его ранее, там есть целый ряд интересных мыслей.
Но, пожалуй, одна из самых интересных в предсказуемости результатов в WA. Фактически он назsвает Wolfram Alpha — «control interface» и сравнивает с Google который таким не является поскольку результат [...]
На днях искал онлайновые сервисы способные помочь при работе с разного рода информацией, в частности одна из задач в определении кодировок и языка веб-страниц, ибо возможность переложить эту рутинную задачу на какой-либо сервис онлайн часть ресурсов может высвободить.
В результате посмотрел на LangId.net и AlchemyAPI и там и там одна и та же [...]
Примерно с полгода назад я писал о таком явлении как метрики анализа HTML, какие они бывают и что с ними происходит сейчас же я расскажу про то же, но подробнее.
1. Уровень тэга (tag level)
Эта метрика определяет вложенность тэга в общем дереве и рассчитать его возможно двумя способами:
— пройдясь по [...]
Я ранее не раз поднимал вопрос о направленном индексировании здесь: http://ivan.begtin.name/2008/10/14/направленное-индексирование-и-верти/ и здесь http://ivan.begtin.name/2009/04/08/информационная-архитектура-наоборот/
В общем-то это именно та задача которой в разных формах я в последнее время сталкиваюсь постоянно,
Предположим есть группа сайтов с которых необхдимо собрать некую информацию. К примеру, пройтись по сайтам всех периодических печатных и собрать с них: код ISIN, [...]
У Лоис Макмастер Буджолд в серии книг про Барраяр есть одно запомнившееся мне высказывание высказывание «Деньги, власть, секс… и слоны.«, оно упоминается в книге «Память» где главные герои рассуждают о человеческой мотивации. А если найти там этот момент, например, прочитав тут в 20 главе, то там «слон» — это самый настоящий живой слон подаренный Барраярскими агентами [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


