Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» — http://ivbeg.livejournal.com/119528.html
Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.
Предыстория этого текста исключительно практическая, поскольку я очень много с данными работаю, то [...]
В Полит.Ру вышла ещё одна моя статья/обзор про то как события ЧП 29 марта освещались на госсайтах. Прочитать её можно здесь — http://www.polit.ru/analytics/2010/03/30/metro29.html и под катом в этом посте.
Метро 29 через призму государственных сайтов
Чтобы понять как наше с Вами государство, а точнее, его органы, присутствуют в Интернете и насколько ощутимо и осознано [...]
На сей раз я посмотрел на этот самый кадровый резерв повнимательнее. Могу сказать что если там покопаться посерьёзнее, то много чего интересного будет, например, многие из представителей бизнеса хотя и представляют разные компании, но многие из этих компаний в общих холдингах.
А если навскидку, то вот такие любопытные наблюдения:
Соотношение мужчин и женщин составляет 87% [...]
Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.
Далее будут рассуждения и не более.
Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.
Правильные ответ — любые, какие [...]
В первой части я привёл график и сравнение по расходам в зависимости от ведомств и редакции.
На сей раз обещанные денормализованные данные по мероприятиям в обеих редакциях. Учитывая что внутри эти редакции отличаются очень сильно, а кроме того предыдущая охватывала период в 4 года, а эта лишь на 1 год 3 месяца (условно тоже [...]
Как многие знают вышла новая редакция Электронной России (прочитать и скачать её можно здесь — http://www.government.ru/content/governmentactivity/rfgovernmentdecisions/archive/2009/09/10/7594263.htm)
Но радость была бы не полной… Но одно дело когда текст представлен как текст и совсем другое данные для анализа. Я эти данные, потихоньку перевожу из DOC в Excel и далее CSV и прочие более полезные форматы.
Поэтому [...]
Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.
Анализ данных
Picalo — инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс — возможность использовать его Python API. Только на английском. Deductor — один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей Tableau — феноменальный продукт по возможностям и стоимости. Один из лучших [...]
Кросспост из личного блога, но уж больно тема близкая и к тому что будет происходить и происходит с рынком труда ИТ.
Поскольку благодаря ЖЖ пользователю virovets у меня появилась статистика из hh.ru по числу новых вакансий и резюме, то удалось сделать несколько агрегированных графиков самые интересные из них размещаю тут.
График помесячных агрегированных данных вакансий, [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


