В прекрасном блоге о анализе данных и статистики в частности под названием «Stats with cata» (http://statswithcats.wordpress.com/) или «Статистика с кошками» появился пост под названием «10 фатальных ошибок при анализе данных» — http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/
Всячески рекомендую его прочитать.
А сам приведу краткую выжимку:
1. «Где говядина?» Цифры, выборки и данные без целей, ответов на [...]
Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.
Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и [...]
Я ранее обещал опубликовать картинки что у меня получались при моделировании ГП «Информационное общество», однако они получались, но не получились — наглядность в них недостаточная и без подтягивания материалов из ФЦП «ЭР» красиво не покажешь.
Однако кое-что я всё же выложу — описание госпрограммы в формате открытых данных.
В Excel файле infosoc_2010-1815 собрана и отструктурирована [...]
У каждого человека своё хобби. Моё хобби — это анализ окружающего мира и его структуризация, поэтому когда выпадает свободная минута времени, я обычно трачу её на рисование схемок и рисование майндмапов на разные интересные темы.
Некоторые из этих схем потом превращаются в проекты, но многие помогают мне лучше понять какую-то тему, [...]
Недавно новый градоначальник Москвы потребовал от Департамента труда и занятости начать публиковать информацию о том сколько и куда иностранных граждан запрашивается московскими компаниями и, что самое неожиданное, департамент эти данные действительно опубликовал.
Вот тут — http://www.labor.ru/?id=1064&mod_news_more=17 можно скачать данные за 2010 год и планируемые предложения о потребностях за 2011 год.
Или по прямым ссылкам:
[...]
И промежуточно-завершающий пост на тему всё той же госпрограммы.
Ещё более внимательное прочтение приложения 3 показало что там весьма странная группировка мероприятий.
Фактически в таблице всего 4-колонки: номер задачи, задача программы, мероприятие программы и ответственный исполнитель.
Однако, на самом деле, вместо отдельных задач в колонке «задача программы» находится несколько задач объединённых в группу и по [...]
Продолжу прошлый пост по анализу паспорта ГП и приложений.
Что также привлекло внимание.
1. В приложении 1 присутствует 22 индикатора и показателя, но при этом ни в этом приложении ни в других не представлена следующая информация:
- ведомства ответственные за достижения данного индикатора;
- мероприятия результативность которых отражается в данном индикаторе;
- сопоставление индикаторов и [...]
Итак, я закончил какую-то небольшую часть анализа финальной редакции госпрограммы.
«Нюансов» там набралось с избытком, в том числе и чисто бюрократических, но обо всём по порядку.
1. Подпрограммы ГП из её паспорта не идентичны и кое-где не соответствуют подпрограммам из приложения 2, в частности.
а. В паспорте указана подпрограмма «качество жизни граждан и условия развития [...]
Для тех кто может быть ещё не знает Google купили компанию Metaweb — создателей FreeBase и Gridworks.
Теперь Gridworks называется Google Refine и доступно по другому адресу https://code.google.com/p/google-refine/
Gridworks, а теперь Google Refine — это один из мощнейших и инструментов по очистке данных. Ему можно на вход подать данные в CSV формате и далее различными [...]
Появился исходный код Gridworks — http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.
И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


