Ноя 24 2009

Онтология и примеры анализа кодов и идентификаторов

Почти год назад я писал на эту  тему в заметке Систематизация расшифровки кодов и управления справочниками, а сейчас продолжу приостановленные тогда размышления.

Если вкратце, то основной постулат такой – подавляющее число маркирующих кодов и уникальных идентификаторов создаются по ограниченному числу правил и подлежат разложению на ряд признаков позволяющих связывать эти коды с другими информационными массивами и справочниками, а также на их основе извлекать больше информации об исследуемых/анализируемых объектах.

Но, вернёмся к кодам – что это такое и как они есть. Буду приводить примеры:

  • 049205770 – пример кода БИК – банковского идентификационного кода
  • 02.03.1989 – пример записи даты в формате dd.mm.yyyy, где dd – день, mm – месяц, yyyy – год от рождества Христова
  • ru.wikipedia.org – пример кодирования адреса в виде домена
  • 09808117 – пример кода ОКПО,  общероссийского классификатора предприятий и организаций
  • 5460000016 – пример кода ИНН. Идентификационного номера налогоплательщика
  • 65.12, 65.22.5 - примеры кодов ОКВЭД
  • 30401810701200001022 – пример кода корреспондентского счета банка в ЦБ РФ
  • ALMZRU8Y – пример кода S.W.I.F.T используемого банковскими организациями
  • ГОСТ Р 52980-2008 – пример кода в виде документа ГОСТ
  • 454091 – российский почтовый индекс
  • 359 – код по общероссийскому классификатору единиц измерения (ОКЕИ) означающий «сутки».
  • NO93 8601 1117 947 – международный номер банковского счета, в примере номер счета в банке Норвегии
  • 13001 – код правительства Российской Федерации по справочнику ОКОГУ
  • 1021600000256 – пример общероссийского государственного регистрационного номера, ОГРН, присваеваемого юридическим лицам.
  • ГС-1-50-02-26-0-7709342342-013097-1 – пример номера лицензии на проектирование зданий и сооружений
  • 08050 – код улицы «Зелёный проспект» по общемосковскому классификатору улиц

плюс сюда же можно добавить такие коды как: номера банковских карт, автомобильные коды VIN, телефонные номера, коды ISBN, MAC адреса сетевых карт, IP адреса, коды EAN-8, EAN-13, GS-128, DUNS номера организаций в США и многие и многие другие.

Суть же всегда одна – кодирование информации об объектах, это способ решения следующих задач:

  • сопоставление объекта некой информационной записи о нём содержащей подробную информацию о его характеристиках, особенностях и атрибутах
  • предоставление людям и программным средствам информацию об атрибутах данного объекта.

При этом я пока затрагиваю только вопросы кодирования информации в текста, но есть и другие способы в виде баркодов, знаков, аудиосигналов.

Continue reading «Онтология и примеры анализа кодов и идентификаторов»


Июл 29 2009

Презентация с iCamp 2009: Автоматическая геоклассификация сайтов

Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.


Мар 06 2009

Расшифровка счетов кредитных организаций

В продолжение моего поста по расшифровке БИК, расчетного и корреспондентского счетов – теперь эта же расшифровка доступна внутри Енота Поискуна посредством инструмента по расшифровке счетов кредитных организаций. Примеры расшифровки можно посмотреть такой 30401810701200001022 или такой 40402810500000000009

Работает всё это на нескольких несложных справочниках главная морока с которыми – это их обновление и поддержание в актуальном состоянии. В общем-то все эти инструменты – это хвост одной и той же системы из которой я просто отделяю наиболее «утилитарные части», которые могут пригодится в повседневной работе. 

Сверхзадача – это, конечно, построение системы справочников и описания мета-структур основных реестров для обеспечения их гарантированной связки. Фактически – это онтологическая модель основных принципов построения и связи различных кодов, классификаторов и реесторовых записей.


Мар 05 2009

Расшифровка кодов. Уточенение к расшифровке ОГРН

В предыдущих рассуждениях о расшифровке кодов я упустил один кодов в ОГРН.  Моё предыдущее предположение что численная часть кода – это цифры с 6 по 12, а кода инспекции в ОГРН нет, не подтвердились.

Дело в том что в ОГРН фиксируется не код инспекции по месту постановки, а код межрайонной инспекции, соответственно не всегда инспекция по месту регистрации может с межрайонной совпадать – чаще даже не совпадает. 

Сейчас ОГРН с этой уточнённой информацией по прежнему можно расшифровать в сервисах Енота Поискуна тут http://enotpoiskun.ru/tools/codedecode

Если есть пожелания расшифровке и других кодов – оставляйте комментарии или пишите письма, вполне возможно что «карта кода» у меня уже есть, а выставить его расшифровку онлайн дело нехитрое.


Фев 22 2009

Расшифровка кодов ИНН, КПП и ОГРН

Вдогонку к посту Расшифровка кодов ИНН, КПП и других ноября 2008 года, я всё таки решился и понял что сервис проверки кодов необходим и сделать его не очень сложно, главное было понять как именно он должен выглядеть и как представлять информацию по расшифровке отдельных и идентификации организаций.

В итоге в составе Енота появился Сервис расшифровки ИНН, КПП и ОГРН где достаточно ввести в форму код ИНН (10 цифр), КПП (9 цифр), ОГРН (13 цифр) и получить расшифровку того что значат отдельные его части включая регион организации, номер инспекции, расшифровку причин поставновки для КПП.  Для кодов ИНН и ОГРН также проводится их корректность по контрольной цифре, для КПП, увы, контрольная цифры отсутствуют и проверять можно лишь по некой разумность отдельных частей, пока полного понимания как это делать у меня нет .

А также, если организация с таким ИНН или КПП есть в базе данных Енота, то эти организации высвечиваются при проверке. 

Сервис, собственно, лишь пример дешифровки кодов которой я занимаюсь давно, но полноценное построение связной онтологической модели кодирования информации займёт ещё долгое время, а ряд утилитарных применений есть и для имеющихся наработок. 

Как и многое другое – сервис делался, в первую очередь, для себя, но уверен что польза с него будет и другим.

И несколько примеров: ИНН: 5036032527 или КПП: 525601001 или ОГРН: 1025004701402


Дек 06 2008

Расшифровка номера социальной карты и номера смарт-карт для SIM карт

Многие знают что социальные карты внедряются сейчас уже повсеместно, но немногие структуру их номера, хотя, в общем-то, вся эта информация всегда была доступна.

Далее про номер социальной карты.

Номер социально карты

Общее описание

Номер социальной карты состоит из 19 чисел и выглядит, например, так: 964390 63 0000000000 7

Этот номер соответствует стандарту ISO 7812 и расшифровывается следующим образом:

  • 1 цифра – идентификатор номера как национального. Для социальных карт и других электронных национальных карт он всегда равен 9;
  • 3 цифры – это цифровой код страны по ISO 3166-1. Для России этот код всегда равен 643
  • 2 цифрыидентификатор типа карты внутри страны. В России у социальных карт этот номер всегда равен 90
  • 2 цифрыэто код региона в котором социальная карта была выдана.
  • 10 цифруникальный номер социальной карты в данном регионе;
  • 1 цифра – последняя цифра является проверочной по алгоритму Луна

Извлекаемая информация

Извлекаемой информации здесь очень мало. Фактически это только код региона выдачи карты и примерная дата выдачи по инкрементальности уникального номера.

Номер SIM карты (номер смарт-карты)

Общее описание

У SIM карт по сути есть два уникальных номера (не менее двух) один из которых International Mobile Subscriber Identity (IMSI) хранится на самой карте – о нём в другой раз и другой является номером смарт-карты отпечатанным на самой карте. Этот номер длиной в 19 символов, всегда с префиксом 89. Номер соответствует ISO 7812.

Расшифровка номера:

  • 2 цифры – всегда равны 89 и являются MII (Major Industry Number) идентифицирующим телекоммуникации
  • 1-3 цифры – код вызова страны по ITU E6.14. Для России это всегда 7. Если же не 7, то имеет смысл
  • от 13 до 15 цифр – уникальный номер сим карты. Возможно
  • последняя цифра – проверочный код по алгоритму Луна

Извлечение информации

К сожалению информации о номерах SIM карт в общем доступе немного. Очевидно что из номера можно извлечь информацию о стране где SIM карта была получена, но остальная структура номера, по видимому варьируется от оператора к оператору внутри страны.

P.S Отдельно необходимо упомянуть что банковские карты про которые я ранее писал также соответствуют ISO 7812. Под этот стандарт подпадают также карточки медицинского страхования, карточки некоторых авиакомпаний и т.д. Определить является ли тот или иной номер номером по ISO 7218 несложно. Достаточно проверить что его длина в пределах от 13 до 19 символов ион проверяется по алгоритму Луна.


Ноя 28 2008

Заметки по расшифровке ФИО

Это довольно старый мой текст в виде заметок по теме анализа ФИО. В отличии от расшифровки кодов здесь нет 100% однозначности, тем не менее, возможно что подход к систематизации пригодится в понимании того какая информация нас окружает и как переводить очевидные понятия в компьютерные правила.

Общее

1. ФИО (фамилия, имя, отчество) наряду со многими другими способами используется для идентификации отдельного человека среди. В отличии от обращения по имени, фамилии или имени плюс фамилии использование ФИО имеет многочисленное применение в официальной практике. Требуется при регистрации множества документов и именно оно, а не просто фамилия или имя фигурирует в законодательных актах.

2. По своей природе – это составной ключ, идентификатор основанный на комбинациях трёх параметров фамилии, имени и отчества, на самом деле не идентифицирующий человека однозначно, а лишь сильно сокращающий выборку из тех кому они могут принадлежать.

3. Неуникальность ФИО не является проблемой в круге общения отдельного человека, поскольку вРоссии в ходу несколько десятков тысяч, может быть до пары сотен тысяч различных фамилий. Плюс несколько тысяч наиболее популярных имён и отчеств приводят к тому среди тысяч знакомых одного человека полные тезки встречаются очень редко.

4. Тем не менее комбинации наиболее распространённых имён и фамилий могут дать многочисленное число полных тёзок. Например, «Волков Александр Николаевич» будет куда более распространённой комбинацией чем «Сидоров Петр Иванович».  А «Смирнова Мария Александровна» куда более частое ФИО чем «Петрова Анна Ивановна».

5. Общепринято считающиеся популярными фамилии «Петров», «Иванов» действительно очень распространены. А вот фамилия Сидоров является не столь распространённой и даже не входит в 50 самых распространённых.

Continue reading «Заметки по расшифровке ФИО»


Ноя 21 2008

Расшифровка кодов. Телефонные номера, ISBN

На сей раз затрону темы более банальные:

Телефон и факс

Общее описание
Телефонные номера позволяют звонить людям друг другу посредством стационарной и мобильной связи. Телефонные номера состоят только из цифр представленных, как
правило, в разной нотации в зависимости от типа телефонной связи и региона. Телефонные номера имеют привязку к региону или мобильному оператору, в результате по     ним всегда можно определить территориальную принадлежность.

Структура телефонного номера
– код страны: от 1 до 3 цифр, число определяющее код страны адресата начинающееся с символа +. Для России это «+7″
– код нас. пункта: обычно от 2 до 5 цифр, но иногда может быть и до 8 цифр, код внутри страны для данного населённого пункта. Ещё точнее код для данной телефонной станции.
– номер телефона: 7-ти,6-ти или 5-х значный номер, как правило разделённый в форматах <3 цифры>-<2 цифры>-<2 цифры> или <2 цифры>-<2 цифры>-<2 цифры>


Шаблоны
Некоторые примеры шаблонов описания телефонного номера
– +<код страны> (<код нас. пункта>) <номер телефона>
-(<код нас. пункта>) <номер телефона>
-<номер телефона>

Расшифровка кодов
Коды телефонов расшифровываются по базам кодов ABC и DEF (для мобильных телефонов)
- Расшифровка DEF – http://www.mtt.ru/info/def/index.wbp
- Расшифровка ABC – http://www.mtt.ru/info/codes/index.wbp

Извлекаемая информация
Наиболее очевидная извлекаемая информация из телефонного номера – это географическое месторасположение владельца телефона. Учитывая что справочники ABC и DEF кодов меняются редко, то можно с высокой уверенностью определять населённый пункт местонахождения или регистрации, для сотовых телефонов.

Для DEF кодов есть ограничение что они территориально привязываются не к населённому пункту, а к субъекту РФ, иного к группе субъектов, как например код 910 у МТС привязан и к Москве и к Московской области.

—-

ISBN (Международный стандартный номер книги)

Continue reading «Расшифровка кодов. Телефонные номера, ISBN»


Ноя 20 2008

Расшифровка кодов. Вопросы к читателям

Вопрос к читателям. Я ранее уже опубликовал 3 заметки по расшифровке различных окружающих нас кодов и чисел – вот они по ссылкам.

http://ivbeg.livejournal.com/169536.html

http://ivbeg.livejournal.com/169821.html

http://ivbeg.livejournal.com/170409.html

Собственно для меня – это одно из «информационных хобби» по расшифровке реальности.

Ещё по ряду кодов напишу в со временем. Некоторые настолько банальны что рука не поднимается их разъяснять, например, коды автомобильных номеров.

Но если у Вас есть какие-нибудь интересные коды/числа на примете, то можно мне оставить комментарием название и я постараюсь раскрыть этот код в подробностях, если по коду есть достаточно примеров, конечно.

А заодно вопрос к тем кто разбирается в строительной тематике. На многих (на всех практически) домах есть метки «ГК», «К», «В», «ПГ», «ГВ» и стрелки вниз или влево или вправо от надписи. Я догадываюсь что это означает разметку водопровода и канализации, но найти каких-либо разъясняющих материалов не удалось. Может кто знает или подскажет ссылку?


Ноя 14 2008

Расшифровка кодов БИК, Кор счета и расчетного счета

UPD от 05.03.2008: В дополнение к написанному, коды расчётных счетов теперь можно расшифровать с помощью инструмента по расшифровке счетов кредитных организаций в системе Енот Поискун

 

Продолжаю тему описаний различных кодов. На сей раз я вспомнил что мне не обязательно всё писать по памяти и уже большую часть материалов давно уже написал, надо было только найти их. Нашёл.

БИК

Общее описание

Банковские идентификационные коды присваиваются Центробанком России каждому банку и для каждого банка они являются уникальными.
БИК представляет собой составной идентификационный код из 9 разрядов где:
– первые два разряда равны «04″ и характеризуют принадлежность Российской Федерации,
– разряды 3-4 являются кодами по ОКАТО или 00 для территорий вне России
– разряды 5-6 определяют код подразделения Банка России
– разряды 7-9 определяют внутренний номер банка в подразделении Банка Росии

Справочник БИК является статическим и ежемесячно или чаще обновляется  Банком России.

Извлекаемая информация

Поскольку БИК является открытым статическим справочником доступным на сайте ЦБ РФ и во многих финансовых системах, то практически вся скрытая в нём информация доступна в лучшем качестве из внешних источнков данных. Извлечение данных из кода БИК целесообразно только при отсутствии информационной системы под руками.

В общем случае из кода БИК можно извлечь:

- регион банка

- подразделение Банка России ответственного за его регистрацию.

- примерную дату регистрации Банка поскольку уникальный внутренний номер в подразделении

является инкрементальным

Continue reading «Расшифровка кодов БИК, Кор счета и расчетного счета»




Rambler's Top100