Ноя 30 2008

Между данными и их представлением. Информационные

Начал собирать воедино накопившиеся заметки по информации, моделировании, формам представления и ранее не раскрытым терминам потребления информации и информационных договоров. Заметки не новые, я уже где-то с два года начал писать об этом же “в стол”, сейчас же думаю что идеи и подходы полезнее выносить на публику.

Далее несколько заметок тезисами.

Общие определения

1. Между данными и их представлением всегда есть промежуточный слой. Его можно назвать “информационный договор” (information contract). Этот слой определяет, то как именно изначальные, первичные данные предстают перед конечными потребителями информации.

2. Если у данных есть несколько форм представления или же допускается более одной формы представления в принципе, информационный договор привязан к данным и

3. Информационный договор охватывает не только структуры данных и структуру их представления, но также учитывает объёмы данных, частоту их изменения (интенсивность информационных потоков), условия их хранения, частоту просмотра форм.

4. Часть информационного договора основана на оценке значимости изменения в структуре и характере данных, изменений в формах представления. В зависимости от этих изменений договор может: автоматически обновляться, аннулироваться, приостанавливаться, ограничивать данные изменения.

5. Информационная модель, в рамках которой присутствует информационный договор или их множество, называется “модель информационного договора” (information contract model).

6. В одной модели может использоваться множество информационных договоров связанных как посредством связанных низлежащих данных, так и посредством связанных форм представления.

7. Модель информационного договора возможна не только в рамках информационных систем, баз данных и программных продуктов, но и во всех случаях, когда есть набор данных и ряд существующих или возможных, рассматриваемых форм соотнесённых данным.

8. Например, в ситуации выбора форм представления рекламы организацией, к которой имеются некий логотип,слоган. В этом случае публикация рекламы в прессе, на стендах или по телевидению – всё это формы представления, в рамках одного информационного договора в котором участвуют первичные данные (логотип, слоган) и формы их представления.

9. Необходимость в информационных договорах обусловлена тем что классическая модель соотнесения данные их представлению, не учитывает ни изменения этих данных, ни изменения их структуры, ни многочисленность форм, зачастую, взаимосвязанных между собой.

Continue reading “Между данными и их представлением. Информационные”


Ноя 28 2008

Заметки по расшифровке ФИО

Это довольно старый мой текст в виде заметок по теме анализа ФИО. В отличии от расшифровки кодов здесь нет 100% однозначности, тем не менее, возможно что подход к систематизации пригодится в понимании того какая информация нас окружает и как переводить очевидные понятия в компьютерные правила.

Общее

1. ФИО (фамилия, имя, отчество) наряду со многими другими способами используется для идентификации отдельного человека среди. В отличии от обращения по имени, фамилии или имени плюс фамилии использование ФИО имеет многочисленное применение в официальной практике. Требуется при регистрации множества документов и именно оно, а не просто фамилия или имя фигурирует в законодательных актах.

2. По своей природе – это составной ключ, идентификатор основанный на комбинациях трёх параметров фамилии, имени и отчества, на самом деле не идентифицирующий человека однозначно, а лишь сильно сокращающий выборку из тех кому они могут принадлежать.

3. Неуникальность ФИО не является проблемой в круге общения отдельного человека, поскольку вРоссии в ходу несколько десятков тысяч, может быть до пары сотен тысяч различных фамилий. Плюс несколько тысяч наиболее популярных имён и отчеств приводят к тому среди тысяч знакомых одного человека полные тезки встречаются очень редко.

4. Тем не менее комбинации наиболее распространённых имён и фамилий могут дать многочисленное число полных тёзок. Например, “Волков Александр Николаевич” будет куда более распространённой комбинацией чем “Сидоров Петр Иванович”.  А “Смирнова Мария Александровна” куда более частое ФИО чем “Петрова Анна Ивановна”.

5. Общепринято считающиеся популярными фамилии “Петров”, “Иванов” действительно очень распространены. А вот фамилия Сидоров является не столь распространённой и даже не входит в 50 самых распространённых.

Continue reading “Заметки по расшифровке ФИО”


Ноя 28 2008

Рабочий треугольник

Tag: bloggingivbeg @ 10:52 дп

Просто как пища для размышлений

К работе/деятельности в ИТ области это применимо на все 100%.

Оригинал на английском тут: http://www.jackcheng.com/maxing-out-your-triangle

Подсмотрено тут: http://www.webappers.com/2008/11/28/are-you-maxing-out-your-triangle/

P.S. С очень высокой вероятностью на Веборуб я попасть не смогу. Сработали, непредвиденные обстоятельства, неприятные, но разрешимые.


Ноя 26 2008

Ссылки. Подборки данных для анализа

Tag: links, информацияivbeg @ 3:37 пп
  • UN General Assembly Voting Data – данные по голосовании генеральной ассамблеи ООН.
  • Affinity of Nations data – данные по сходству голосований различных стран. Позволяют понять кто с кем и как аффилирован.
  • Reddit Secret API – всё тайное становится явным, у Reddit есть своё API
  • Phishing Corpus – для тех кому небезынтересна проблема фишинга в email
  • LIFE photo archive – не сказать чтобы очень пригодный для анализа, но интересный архив журнала LIFE выложенный Google
  • NACDA – национальный архив (США) данных о старении

Что характерно, основные информационные источники все идут из США. В других странах, включая Россию, к сбору данных и их публикации относятся куда менее практично, на удивление.


Ноя 25 2008

Систематизация и классификация опечаток

Tag: алгоритмы, размышленияivbeg @ 4:28 пп

Чтобы понять какое-либо сложное явление вначале надо понять хотя бы часть этого явления, детализировать и систематизировать причины.

Например, ранее я несколько раз обращался к механизмам обработки опечаток, включая алгоритм Левенштейна и вопросы алфавита в общем случае. Сейчас я затрону тему которую не хочу называть ни “нано”, ни “семантикой” – пусть это будет самая простая и банальная систематизация явления с некоторыми выводами.

Рассмотрим ситуацию с опечатками.  Классический подход, реализуемый в алгоритме Левенштейна в том что опечатки бывают, условно, 4-х типов:

1. Потерянная буква.

2. Лишняя буква.

3. Буквы перепутанные местами.

Например, часто вместо слова картридж пишут картрижд, а вот, почему-то, опечаток вроде картридя не бывает?

Причина очень проста – буквы д и ж расположены очень близко на клавиатуре, а также они идут друг за другом внутри слова.

По той же причине иногда имя Георгий пишут как Неоргий. Буквы Н и Г хотя и не созвучны, но находятся рядом и природа опечаток понятна – люди нажимают кнопки на клавиатуре находящиеся рядом с нужными.

Схожая ситуация с буквами лишними. В подавляющем случае лишняя буква появляется, либо та что идёт до неё, либо одна из находящихся рядом на клавишах.

Что я хочу всем этим сказать – природа значительного числа опечаток, если не всех, происходит от расположения кнопок на клавиатуре и от структуры слова, уровня его “ошибабельности”. Вроде того же “картриджа”, в котором ошибаются, по моим личным наблюдениям, очень часто.

Чтобы понять природу опечаток возможно и необходимо построить онтологию опечаток.

Эта онтология, фактически, будет алфавитной онтологией где помимо самих букв, будут представлены их отношения по физическому месторасположению. Так буква “й находится слева от ц” – означает что буква “й” обладает отношением к букве “ц” и это отношение основано на её физическом расположении с левой стороны от буквы “ц”

Далее онтология может расширятся созвучностью букв, соответствие латинскому алфавиту и так далее.

В итоге на основе построенной онтологии, формируются правила где по структуре слова и отношению букв можно определить наиболее вероятные опечатки.

В свою очередь обратное применение этих правил даст возможность находить наиболее вероятные (по смыслу) кандидаты словам с опечатками.


Ноя 25 2008

Если не анонимный Рунет, то какой?

Периодически от разных людей слышу, читаю что наши депутаты и просто чиновники хотят начать регулировать Рунет, причём главное чего достичь – это неанонимности. При этом мало задумываясь о технической осуществимости этой задачи.

Я как-то уже писал на эту тему, сейчас повторюсь – вопрос неанонимности необходимо решать в контексте уникального цифрового удостоверения. Причём ЭЦП здесь хотя и подошло бы, но получение ЭЦП каждым физическим лицом – это адская и долгая работа, ко всему ещё и дорогостоящая.

Решение может быть принципиально иным – агенты по ведению персональных профилей.

Выглядеть это может так:

1. Государство формирует требования к организациям провайдерам имеющим право на выдачу цифровых профилей. Наиболее вероятными кандидатами тут будут гос. банки, вроде Сбербанка, но могут быть и коммерческие.

2. Гражданин при получении цифрового профиля, также получает постоянную ссылку на него в публичном репозитации, код, и идентификатор авторизующего сервиса данного провайдера – фактически это OpenID или его аналог.

3. При необходимости гражданина неанонимно направить какой-либо официальный запрос в гос. орган, последний реализует в веб интерфейсе авторизацию посредством OpenID или его аналога. В свою очередь чтобы авторизоваться на сервисе цифрового профиля гражданину необходимо использовать одну из процедур в требованиях к провайдерам данных услуг. В идеале это ЭЦП, но на первоначальном этапе может быть и логин + пароль

4. В системе оператора цифровых профилей фиксируются результаты запросов гражданина в гос. органы, перечни запросов, а также оператор, по аналогии со списание со счетов в банках производит предоставление персональных данных о гражданине внешним государственным системам с подтверждением самого гражданина. Иначе говоря, гражданин хочет запросить некую информацию из государственной системы которой необходима информация о нём. Система запрашивает информацию из его цифрового профиля у провайдера, провайдер, например, присылает гражданину SMS с кодом подтверждения и только после его подтверждения передаёт данные.

5. Все юридически значимые действия гражданина, в свою очередь, фиксируются в системе цифровых профилей.

Почему именно так? Потому как по сути только у банков и Почты России есть достаточная инфраструктура для выдачи таких цифровых профилей. В то же время они и так собирают данные о пользователях  при открытии счетов и их меры онлайновой безопасности одни из наиболее строгих.  При этом, что важно, тотальной системы сбора персональных данных не строится – репозитариев цифровых профилей может быть множество.

Но для этого необходимо разрабатывать форматы обмена информацией о государственных услугах и вообще взаимодействия гражданина и государства. Необходима масса оргмер по формированию требований к провайдерам цифровых профилей плюс многое и многое другое.

Впрочем всё вышенаписанное пока ещё является не более чем плодом моего воображения. Фантастика, говоря иначе.


Ноя 25 2008

Ссылки и мысли: Разное около ИТ-шное

Tag: linksivbeg @ 11:09 дп

Оказывается Стив Балмер выступит перед судом из-за истории с Vista Capable. Нежурналисткое название статьи какое-то. Вот 43-й богатейший человек в мире будет 3 часа давать показания в суде – это я понимаю.


Кое-где в регионах начали появлятся реестры информационных ресурсов, например, в Вологодской области – http://vologda-oblast.ru/gir.asp?LNG=RUS&TR=1 Также я видел их в ещё в 4-5 регионах. Это конечно не единый реестр справочников и реестров, но всё же шаг вперед.

Я ранее уже приводил ссылку на MosClassific.Ru, повторю её ещё раз – это на сегодняшний день один из лучших ресурсов по общероссийским справочникам  где также полностьтку ю доступны в машиночитаемом формате московские городские справочники. И это правильно.

Стартаперам на заметку. В серии “Harvard Business Review” есть книга “Эффективное принятие решения” и там статья “Равноценный обмен: рациональный подход к достижению компромисса“. Помимо того что там описаны неплохой, систематизирующий подход к принятию решений в жизни, описанное там достаточно легко автоматизируется в онлайне. Если Вы разрабатываете системы персональных финансов или ведения личных задач, то такой онлайновый инструмент где можно было бы легко описывать варианты решений и проводить равноценный обмен – может быть востребовано посетителями.Лично я для этого использую Excel, OpenOffice Cals и Google SpereadSheets смотря что оказывается под рукой.

Социальные шаблоны (Social Patterns) – сайт-дополнение к одноимённой книге. Пока материалов мало, но обещают больше. Посмотреть и подумать стоит в любом случае.

Безотносительно. Сайтами где можно переходить по ссылкам только мышью уже никого не удивишь. Вот если бы навигация была только клавиатурой – совсем другое дело.

Как быть программистом? Инструкция на английском почти не для чайников.


Ноя 24 2008

Об организации раскрытия информации, реестрах и реестр реестров

Мысли по поводу публикации различной официальной информации. Пока тезисно, далее напишу развёрнутый текст (наверное даже не в блоге, а куда-нибудь на публикацию отправлю).

Практически все федеральные и региональные органы власти ведут те или иные реестры и справочники. В некоторых случаях они публично доступны, чаще недоступны, но практически про все из них можно сказать что:

a. По большинству искать невозможно или очень сложно.

b. Если справочник публикуется в формате Excel, то часто у него нет постоянного адреса публикации. Вместо этого новые версии выкладывают новыми файлами с названиями из даты публикации.

Всего общедоступных справочников на федеральном уровне порядка 70 из тех что удалось насчитать неглубоким поиском. При детальном поиске этих справочников наберётся до 200-300 если не больше.

Многие справочники публикуются в виде законов или постановлений соответствующих органов власти, но до сих пор не сформировалось практики что если публикуется закон со справочником, то к нему должно прилагаться и обязательно быть доступным машиночитаемое описание справочника, благо в законы справочники переносятся из машиночитаемого формата. Но что-то явно мешает в таком виде их и публиковать…

Continue reading “Об организации раскрытия информации, реестрах и реестр реестров”


Ноя 24 2008

К вопросу о СМИ, блогах и кодах ISSN

Tag: blogging, стоит почитатьivbeg @ 9:02 дп

На днях я поднимал информацию о том что такое ISSN (Internation Standard Serial Number) и обнаружил сразу несколько удивительных вещей:

1. ISSN может присваиваться онлайновым изданиям. Например, если журнал выходит в онлайне и в печати, то у него должно быть два ISSN номера. Плюс рекомендуется использование ISSN-L для связи этих номеров.

2. Личным блогам ISSN не присваивается (см. http://www.issn.org/2-22638-ISSN-and-electronic-publications.php), иначе говоря в международной практике блоги не рассматриваются как СМИ.

3. В Российском реестре СМИ ФАПМК (Федеральном агенстве по печати и массовым коммуникациям) какая-либо связь между ISSN и вообще его наличие у регистрируемого ресурса не фиксируется хотя и было бы логично. К слову, российский государственный реестр СМИ вообще какой-то странный, технически информация плохо структурирована, специфицирована и требуется много усилий для её обработки.

Самое интересное – это конечно что ISSN International Centre не рассматривает блоги как СМИ, может быть этот факт и поможет кому-либо если опять начнётся “натягивание закона” о СМИ на российских блоггеров.


Ноя 21 2008

Расшифровка кодов. Телефонные номера, ISBN

На сей раз затрону темы более банальные:

Телефон и факс

Общее описание
Телефонные номера позволяют звонить людям друг другу посредством стационарной и мобильной связи. Телефонные номера состоят только из цифр представленных, как
правило, в разной нотации в зависимости от типа телефонной связи и региона. Телефонные номера имеют привязку к региону или мобильному оператору, в результате по     ним всегда можно определить территориальную принадлежность.

Структура телефонного номера
– код страны: от 1 до 3 цифр, число определяющее код страны адресата начинающееся с символа +. Для России это “+7″
– код нас. пункта: обычно от 2 до 5 цифр, но иногда может быть и до 8 цифр, код внутри страны для данного населённого пункта. Ещё точнее код для данной телефонной станции.
– номер телефона: 7-ти,6-ти или 5-х значный номер, как правило разделённый в форматах <3 цифры>-<2 цифры>-<2 цифры> или <2 цифры>-<2 цифры>-<2 цифры>


Шаблоны
Некоторые примеры шаблонов описания телефонного номера
– +<код страны> (<код нас. пункта>) <номер телефона>
-(<код нас. пункта>) <номер телефона>
-<номер телефона>

Расшифровка кодов
Коды телефонов расшифровываются по базам кодов ABC и DEF (для мобильных телефонов)
- Расшифровка DEF – http://www.mtt.ru/info/def/index.wbp
- Расшифровка ABC – http://www.mtt.ru/info/codes/index.wbp

Извлекаемая информация
Наиболее очевидная извлекаемая информация из телефонного номера – это географическое месторасположение владельца телефона. Учитывая что справочники ABC и DEF кодов меняются редко, то можно с высокой уверенностью определять населённый пункт местонахождения или регистрации, для сотовых телефонов.

Для DEF кодов есть ограничение что они территориально привязываются не к населённому пункту, а к субъекту РФ, иного к группе субъектов, как например код 910 у МТС привязан и к Москве и к Московской области.

—-

ISBN (Международный стандартный номер книги)

Continue reading “Расшифровка кодов. Телефонные номера, ISBN”


Следующая страница »


Rambler's Top100