Систематизация распознавания пола и этноса по ФИО

Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» — http://ivbeg.livejournal.com/119528.html

Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.

Предыстория этого текста исключительно практическая, поскольку я очень много с данными работаю, то периодически возникают задачи по тому как обогатить, улучшить, извлечь и отклассифицировать данные.  Так, например, анализ  ФИО даёт возможность  добавить как минимум 2 новых среза — гендерный и этнический (более правильное название определения национальности).

В задачах по визуализации гендерный срез особенно интересен, поскольку при наличии большого числа дополнительных характеристик можно показать различия весьма наглядно.

Этнический же срез интересен только на больших выборках, но поскольку эту информацию хотя бы частично можно извлечь, то опишу этот процесс.

Почему систематизация ? Лично я придерживаюсь того мнения что систематизации мало не бывает. Иногда это вредит — поскольку приводит к значительному углублению в детали, но чаще это помогает поскольку позволяет лучше понять предметную область и прежде чем приступать к воплощению в коде каких-либо алгоритмов — понять, с чем же имеем дело и как обеспечить простоту анализа данных в сочетании с максимально возможным охватом.

В случае ФИО, начало систематизации начинается с шаблонов.

Шаблоны

Форм записи ФИО не очень много и они вполне поддаются систематизации и укладываются в несколько шаблонов которые, в свою очередь, разделяются на несколько элементов.

Этих элементов немного и их можно перечислить:

s — Фамилия (surname)

f — Личное имя (first name)

m — Отчество (midname)

S — Однобуквенная запись фамилии

F — Однобуквенная запись имени

M — Обнобуквенная запись отчества.

Далее при анализе ФИО я буду исходить из того что ФИО — это не только фамилия, имя и отчество, но в реальной жизни это гораздо большее число форм написания того же.

При этом у использования этих элементов есть свои особенности в частности есть устоявшиеся сочетания в которых они присутствуют. Далее я приведу перечень шаблонов для определения этих сочетаний:

sfm — Фамилия, имя и отчество. Например, Пилипенко Мария Геннадьевна

fms — Имя, Отчество, Фамилия. Например, Александр Аронович Хромов

sFM — Фамилия и по первой букве от имени и отчества. Например, Васильев И. И. или Минниханов Р Е

FMs — первые буквы от имени и отчества и фамилия полностью. Пример: А. Ю. Макаренко, Н.Г. Буранов

sfM — фамилия и имя полностью и первая буква от отчества. Примеры: Ефимов Борис А., Карманова Мария В.

Fs — Первая буква имени и фамилия. Например, А. Румянцев или В Ручкин .

sF — фамилия полностью и первая буква от имени. Примеры: Борисов Г., Рахмонова Е.

s — только фамилия. Например: Хазанов, Минниханов, Дудкина, Малых

fs  — имя, фамилия. Например: Арут Карапетян, Борис Рыбин

sf — фамилия, имя. Например: Климов Максим, Мирных Алексей, Дудяк Елена

fm — имя, отчество. Например: Иван Петрович, Василий Аркадьевич, Рахиль Альбертовна

f — личное имя. Примеры: Иван, Петр, Алексей, Равиль, Аслан и т.д.

SFM — по первой букве от фамилии, имени, отчества. Примеры: В.Р.Е, Е.Н.М.

Является ли этот список шаблонов исчерпывающим? Весьма вероятно что нет, однако все остальные случаи будут достаточно редкими чтобы рассматривать их как исключения и систематизировать именно с точки зрения исключений.

Правила разбора ФИО

Когда известны все основные шаблоны и есть входящий поток для разбора можно приступать к описанию логики анализа.

Прежде чем определять пол персоны или этнос важно разложить ФИО на элементы и для этой цели необходимо определить каким шаблоном ФИО написано. Как это сделать?

1. Вначале разбить ФИО на элементы исходя из того что разделителями могут выступать пробелы и точки.

2. Определяется количество частей после чего идёт ветвление на проверку по шаблонам. Если 1 часть (1 слово) — то шаблон s или f. Если две части, то sf, fm, fs, sF или Fs

3. Для ФИО из 3-х частей проводится простая проверка не состоят ли какие-либо части из одной буквы. Если да и более двух, то быстро определяются такие шаблоны как SFM, sFM и FMs

4. Далее как определить какая из частей каким типом элементов является. Есть два способа и их комбинация.

Способ 1. Базы имён, фамилий и отчеств

Всего уникальных имён сравнительно немного — десятки тысяч. То же самое с отчествами. Сложнее с фамилиями — их могут быть сотни тысяч и миллионы. Однако при наличии значительных массивов возможно создание баз имён, фамилий и отчеств, а далее ручная и полуавтоматическая разметка по полу и этносу.

Способ 2. Регулярные выражения

Для отчеств — окончания на -вич и -вна. Для фамилий выражений больше. Например, таки как: ^(.*)(о|е|ё)в$, ^(.*)швили$ и так далее, несколько десятков.  А также есть набор выражений для имён, но там всё несколько сложнее и это отдельная тема.

Для каждого из выражений может быть сопоставление его с полом или этнической группой.

Способ 3. Использование баз и выражений совместно

Если запись находится в базе — исходить их признаков в базе, если нет — применять разметку регулярным выражением.

5. После идентификация шаблона мы имеем его описание и, если его идентификация потребовала определения типа элементов, то и предположения о поле и, возможно, этносе персоны. Для полноты картины необходимо проверить все остальные элементы регулярными выражениями и/ли по базам.

6. В конечном итоге результатом являются:

— выявленный формат шаблона

— размеченные элементы (фамилия, имя, отчество)

А также, или все имеющиеся или один производный признак пола и, при возможности определения, этноса.

Или же возврат,  и производного, и всех признаков. Об особенностях определения признаков в следующем пункте.

Особенности

Все было бы очень просто если бы не некоторые особенности которые важно помнить и учитывать.

1. Есть множество случаев когда пол определить невозможно даже определив шаблон и отдельные элементы. Связано это не с несовершенством методов проверки, а с тем что далеко не всегда информация о поле содержится в ФИО. Вот несколько примеров: Малых А.А. — имя и отчество присутствуют только в виде первых букв, а фамилия Малых является универсальной и может принадлежать, как женщине, так и мужчине. Точно также с фамилиями на -ко, -их и множестве других. Фактически во всех случаях шаблонов sFM, FMs, Fs, sF и s у нас недостаточно элементов несущих информацию и определение ограничено имеющейся информацией. В виду этого результатом метода по определению пола по ФИО могут быть 4 варианта ответа: женский, мужской, универсальный и неизвестно.

2. Есть множество региональной специфики в том что касается написания имён и отчеств. В частности в  азербайжанских казахских ФИО часто присутствует «Оглы» или «Кызы». Например, Асланов Ази Ахад оглы

3. Много специфики в именах используемых в национальных республиках России и бывшем СССР. Точность распознавания будет зависеть от наличия датасетов по регионам.

4. Описанный подход не охватывает случаи намерянных и случайных искажений. Например, когда вместо точки используют запятую или указывают ФИО вроде «Гадя Петрович Хренова». А также случаи с опечатками — это несколько более сложная, но не сверхсложная задача.

5. Определения этноса задача сложная, в первую очередь, в виду значительных объёмов классифицируемой информации. Фактически её можно разделить на принципы определения различных этнических особенностей в ФИО разных народов. Например, окончания фамилий на «-ян» у армян или «-дзе» и «-швили» у грузин. А также на основе баз имён разных народов.  Однако есть много случаев когда определить этнос сложно поскольку имя может указывать лишь на то из какого языка оно происходит. А в некоторых случаях имена могут иметь множественное значение. Например имя Артур — весьма популярно среди армян и это армянское имя переводящееся как «свет истины» и одновременно это нередкое современное имя в России среди русских.

Примеры

Собственно всё вышеперечисленное какое-то время я реализовал довольно давно в виде довольно простого закрытого веб-сервиса который на входе кушает текст, а на выходе выдаёт JSON с результатами. Работает это всё настолько просто назвать это алгоритмом у меня язык не поворачивается — просто «полезная штука», ничего более.

Вот несколько примеров.

Текст: Бегтин И.В.

Разбор в формате JSON:

{‘format’: ‘sFM’, ‘gender’: ‘m’, ‘sn’: u’Бегтин’, ‘fn_s’: u’И’, ‘text’: u’Бегтин И.В.’, ‘mn_s’: u’В’, ‘parsed’: True}

Текст: Иван Викторович Бегтин

Разбор в формате JSON:

{‘format’: ‘fms’, ‘gender’: u’m’, ‘mn’: u’Викторович’, ‘sn’: u’Бегтин’, ‘text’: u’Бегтин Иван Викторович’, ‘parsed’: True, ‘fn’: u’Иван’}

Где: fn — имя, sn — фамилия, mn — отчество, fn_s — первая буква имени, format — выявленный формат описания ФИО, parsed — флаг что формат был определён, gender — пол в виде одного из признаков m, f, u и «-» если определение пола не прошло.

Нет только признаков этноса, поскольку сейчас они присутствуют только для имён

Статистика

В качестве небольшого дополнения приведу некоторые статистические наблюдения.

Для проверки точности я взял небольшой массив примерно в  5 600 000 неуникальных записей из публичных официальных документов. А то есть с частыми повторениями одного и того же ФИО, но в разных формах. Например: где-то упоминается: Кудрявцев Е.В., где-то Кудрявцев Евгений, где-то Кудрявцев Евгений Викторович и так далее.

В результате сформировалась следующая таблица частот использования тех или иных форм записи.

Шаблон Частота sfm 49,38% sFM 35,71% FMs 13,42% fms 1,24% sF 0,069% sf 0,055% Fs 0,038% sfM 0,029% s 0,026% fs 0,0010% f 0.0007%

Фактически можно увидеть что при 4 основных написания — sfm, sFM, FMs и fms лидируют по частоте встречаемости. Но, как я упоминал ранее, здесь есть специфика в официальности. Если же анализировать другие массивы, то распределение шаблонов по популярности будет иным.

В качестве резюме

В общем-то разбор ФИО — это довольно простой пример на уровне «систематизации очевидного». Куда сложнее задачи по разбору адресов или, например, товарных позиций. Но ничего неразрешимого нет при условии последовательного упрощения и шаблонизации форматов представления, иногда многоуровневой.

About This Author

Яндекс.Метрика