Лингвистические трюки и распознавание национальности по имени

вопросам о том какую информацию можно извлечь из такого простого понятия как личное имя.

Специфика личного имени человека в его происхождении, причём для разных народов, этносов даже в рамках общей среды обитания выбор имени всё ещё остаётся национальной традицией.

Есть некоторые правила которые можно вывести из языковых традиций — это происхождение слов. Большая часть русских имён — греческого, римского и древнерусского происхождения, а также взятые из Библии. Имена еврейские в своём роде уникальны и происходят из иврита, а мусульмане чаще всего обладают именами арабского происхождения упомянутым в Коране.

Отсюда же есть и социальные правила по которым, к примеру, мусульмане не назовут мальчика «Николай», русские девочек «Сара» или «Рахиль», а среди армян, к примеру. Среда влияет на имя ребёнка, а имя определяет ту среду в которой он рос и, с высокой долей вероятности, национальность.

Но тут есть важная особенность, да, 500 наиболее популярных имён будут покрывать охватывать 93% людей, но иногда имени нет в словаре из этих 500 или даже большего размера. Вопрос в том как всё, хотя с определённой вероятностью,

Далее приведу один, но не единственный трюк определения национальности и происхождения имени, а также пола человека.

Рассмотрим структуру русского алфавита. Мы имеем, 33 буквы — разные по звучанию, частоте употребления, типу и множеству критериев. Возьмём на основе алфавита разделение букв, условно, на 4 категории:

—  гласные: буквы о, е, и, а, я, ё, э, ю, у, ы

— согласные: все буквы кроме гласных и мягкого и твёрдого знака

—  знаки: твёрдый и мягкий знак

спецсимволы: поскольку имена иногда могут быть составными и писаться через дефис, то в спецсимволы занесём дефис, на всякий случай.

Обозначим гласные как ‘v’ (vowels), согласные как ‘c’ (consonants), знаки как ‘m’ (marks) и спецсимволы как ‘s’ (special)

После этого деления берём базу имён и для каждого составляем его «карту».

Например, карты имён:

  • Иван — vcvc
  • Мария — cvcvv
  • Николай — cvcvcvc
  • Казимир — cvcvcvc
  • Лукерья — cvcvcmv
  • Таисия — cvvcvv
  • Флерия — ccvcvv

В свою очередь карты будут повторятся и сгруппируем вместе имена с идентичными картами.

Что мы увидим:

1. Карта ccvcvv отсеит часть женских имён греческого и римского происхождения — Ксения, Кладия, Грация, Флерия, Флавия, Стесия,  Флория.

2. Карта ccvcvc будет в 80% случаев соответствовать мужским русским  и славянским именам таким как Владимир, Григорий, Драголюб, Протасий, Спиридон, Ксаверий и другие. Исключениями будут имена Джагафар, Джанибек, Сражидин. Эти две группы имён уже можно разделить по другому критерию, о нём в другой раз отдельно.

3. Карта vvcvc будет соответствовать мужским неславянским именам таким как Иосиф, Иолий, Аидар, Аикас, Аисак  и другим.

4. Карта vccvcvccvc за исключением имени Иннокентий соответствует мужским мусульманским именам, таким как Абдурахман, Агзаметдин.

5. Карта cvcccvccvc за исключением имени Константин соответствует мужским мусульманским именам, таким как  Фейзрахман,  Габдрахман, Нурмхаммет и другим.

6. Карта vcvccvcccv будет соответствать лишь одному единственному женскому имени Александра также как и карта vcvccvccc соответствует только одному уникальному мужскому имени Александр.

7. Карта cvcccvc за исключением славянских имён Кондрат, Панкрат, Вацлав; немецких Гейнрих, Гейдлих, Валдфрид и нескольких «советских» вроде Марксэн, Марксин — во всём остальном будут соответствовать восточным мусульманским мужским именам: Шайхраз, Чойнхор,  Нуртдин и другим. Итоговая пропорция мусульманских к немусульманским именам около 85% к 15%.

А если мы точно такую карту построим для деления по принципу что все не гласные буквы заменяем на точки, а гласные оставляем как есть, то можно будет получить ещё один срез (кластер) по которому, например карты «.и.и.а.и.«, «.у.а.а.«, «.а..у.а» будут соответствовать исключительно восточным мужским именам. Схожие правила будут для римских и греческих имён.

И это только пара примеров, c сознательно упрощённой схемой анализа. В реальности же используются куда более сложные механизмы с извлечением рассчитываемых показателей, кластеризация этих показателей применительно к ручным меткам.

Для чего это нужно? Например, учитывая существующее развитие социальных сетей, если уж Вы зарегистрировались как «Шмуль Ефимович», система может спросить Вас автоматически, владеете ли Вы ивритом, не дожидаясь пока Вы сами ей об этом упомянете.

About This Author

Яндекс.Метрика