Посты в категории: %d0%b0%d0%bd%d0%b0%d0%bb%d0%b8%d1%82%d0%b8%d0%ba%d0%b0

Систематизация распознавания пола и этноса по ФИО

Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» — http://ivbeg.livejournal.com/119528.html

Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.

Предыстория этого текста исключительно практическая, поскольку я очень много с

Читать больше

Про анализ кадрового резерва в графиках

На сей раз я посмотрел на этот самый кадровый резерв повнимательнее. Могу сказать что если там покопаться посерьёзнее, то много чего интересного будет, например, многие из представителей бизнеса хотя и представляют разные компании, но многие из этих компаний в общих холдингах.

А если навскидку, то вот такие любопытные наблюдения:

Соотношение мужчин и

Читать больше

Электронная Россия в сравнении редакций. Часть 2. Мероприятия

В первой части я привёл график и сравнение по расходам в зависимости от ведомств и редакции.

На сей раз обещанные денормализованные данные по мероприятиям в обеих редакциях. Учитывая что внутри эти редакции отличаются очень сильно, а кроме того предыдущая охватывала период в 4 года, а эта лишь на 1 год

Читать больше

Презентация с iCamp 2009: Автоматическая геоклассификация сайтов

Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.

Website Geotargeting (russian)Читать больше

Цифры и графики рынка труда на основе данных из hh.ru

Кросспост из личного блога, но уж больно тема близкая и к тому что будет происходить и происходит с рынком труда ИТ.

Поскольку благодаря ЖЖ пользователю virovets у меня появилась статистика из hh.ru по числу новых вакансий и резюме, то удалось сделать несколько агрегированных графиков самые интересные из них размещаю тут.

График

Читать больше

О событиях 29 числа с точки зрения информации на госсайтах

В Полит.Ру вышла ещё одна моя статья/обзор про то как события ЧП 29 марта освещались на госсайтах. Прочитать её можно здесь — http://www.polit.ru/analytics/2010/03/30/metro29.html и под катом в этом посте.

Метро 29 через призму государственных сайтов

Чтобы понять как наше с Вами государство, а точнее, его органы, присутствуют в Интернете и насколько

Читать больше

Сокрытие информации и бинарные форматы файлов

Не так у меня была заметка про то как извлекать скрытые метаданные, но, для объективности, можно сказать что это только одна сторона медали.

Далее будут рассуждения и не более.

Есть и другая и она заключается в том, какие же скрытые данные в принципе могут присутствовать в различного рода файлах.

Правильные ответ —

Читать больше

Электронная Россия в сравнении редакций. Часть 1

Как многие знают вышла новая редакция Электронной России (прочитать и скачать её можно здесь — http://www.government.ru/content/governmentactivity/rfgovernmentdecisions/archive/2009/09/10/7594263.htm)

Но радость была бы не полной… Но одно дело когда текст представлен как текст и совсем другое данные для анализа. Я эти данные, потихоньку перевожу из DOC в Excel и далее CSV

Читать больше

Ссылки. Анализ и визуализация данных

Анализ данных

  • Picalo — инструмент выявления аномалий и анализа данных, с открытым кодом на Python. Главный плюс — возможность использовать его Python API. Только на английском.
  • Deductor — один из немногих отечественных OLAP инструментов. Коммерческий. Стоимость студии до 29 000 рублей
  • Tableau — феноменальный продукт по возможностям и стоимости. Один

    Читать больше

Яндекс.Метрика