Эффективное геокодирование данных

Продолжая тему геокодирования или геотеггинга веб сайтов и любых объектов в принципе опишу чуть подробнее даже не сами алгоритмы, а принципиальный подход к подобной классификации — поскольку геокодирование это именно классификация и, более того, это можно сравнить с назначением тэгов. Подход описываемый мною далее, в общем случае, применим к любому типу классификаций объектов.

Пожалуй, первая и ключевая задача при геокодировании в построении онтологической схемы объектов и правил классификации с которыми предполагается работа. В большинстве случаев эта работа сводится к ответам на вопросы:

— Какими свойствами обладает данный тип объектов и есть ли среди них свойства имеющие географическую привязку?

— Является ли рассматриваемый тип объектов сложным и состоит ли он из вложенных структур?

— С какими типами объектов связан данный тип объекта?

— Обладают ли связанные с этим типов объекта другие объекты географической привязкой?

— Обладают ли свойства связанных с данным объектом объектов переносимостью на рассматриваемый объект?

— Как бы я классифицировал данный сайт объект вручную?

Термин «объект«, в данном случае, будет применяться как сущность, логическое понятие, но не как нечто связанное с разработкой. Соответственно тип объекта — это онтологический класс, совокупность описания его связей, метрик и отношений с другими типами объектов.

Далее при рассмотрении я буду исходить что сами принципы классификации по тексту и различным меткам заведомо понятны и рассматриваются только подходы. Соответственно, подходы к анализу данных, в отличии от алгоритмов, секрета не представляют.

1. Какими свойствами обладает данный тип объектов и есть ли среди них свойства имеющие географическую привязку?

Когда мы говорим о классификации каких-либо данных мы всегда отвечаем на один из вопросов «Зачем?», «О чём?», «Где?» данный объект, но главным вопросом всегда остаётся «Что?», то чем же данный объект является по сути. Его смысл, его свойства, его характеристики, его связи.

До начала классификации любого объекта важно понять, а что же он из себя представляет. И какая информация о нём может играть сколь бы то ни было значительную роль в его анализе.

Говоря о геоклассификации для каждого его атрибута необходимо сделать проверку с ответами на вопросы:

а. Можно ли соотнести данный атрибут с геометками?

б. Можно ли из данного атрибута извлечь информации для соотнесения с геометками?

в. Можно ли использовать данный атрибут для уточнения привязки к геометкам?

После проверки каждого атрибута, они они сортируются для по их применимости и далее каждый из атрибутов рассматривается по отдельности с точки зрения использования в правилах классификации.

Например, анализируя новости в RSS ленте мы можем разделить имеющиеся у ленты атрибуты на те которые никак не могут помочь — это pubData, lastBuildDate, ttl, rating, guid, skipDays, skipHours. Поскольку сами типы их данных не подразумевают возможности использования в классификации, это цифры, даты и GUID’ы.

В то же время такие атрибуты как title, description, link, category, author, comments, enclosure, source, language, webMaster, managingEditor, image могут нести в себе информацию как для извлечения геометок из текста, так и использования её для уточнения привязок. Более того часть из этих атрибутов являются не только текстом, но связями с другими объектами.

2. Является ли данный объект сложным и состоит ли из вложенных структур?

Эта часть анализа, как и предыдущая, заключается в лучшем понимании предметной области с которой мы работаем. Зачастую рассматриваемый тип объекта может не обладая атрибутами связанными с геометками или позволяющими их извлечь может содержать вложенные структуры которые с геометками связаны.

Пример, у нас есть организация обладающая перечнем товарных предложений. Несмотря на то что мы можем классифицировать организацию по её собственным атрибутам, в некоторых случаях они могут быть недоступны, в то же время по характеристикам товарного предложения, где именно оно предлагается, мы можем извлечь дополнительные геометки.

3. С какими типами объектов связан данный тип объекта?

В этот раз, рассмотрим вопрос геоклассификации товарного предложения. Логика здесь обратная предыдущей, но уже на уровне связей.

Что есть товарное предложение? Это предложения некого товара, работ или услуг определённой организацией на определённых условиях. Само определение объекта вводить как минимум одно дополнительное понятие — организация.

При этом мы можем провести однозначную связь между этими двумя понятиями. Иными словами мы можем оперировать в рамках онтологической модели — из двух понятий организации и товарного предложения. Как следствие мы можем утверждать о переносимости атрибутов организации на атрибуты товарного предложения в том случае когда последнее своими гео-метками не обладает, а также возможностью уточнения геометок товарного предложения по геометкам организации.

4. Обладают ли связанные с этим типов объекта другие объекты географической привязкой?

Фактически это проверка наличия у связанных с данным объектом других объектов обладающих геометками. В примере привёднном выше мы заранее знаем что геометки есть у организации, но при анализе структур данных и анализе их связей предварительно необходимо проверить, а есть ли геопривязка у связанных объектов.

5. Обладают ли свойства связанных с данным объектом объектов переносимостью на рассматриваемый объект?

Упоминая связи объектов и обладание связанными объектами определённых геометок также необходимо понимать, а можем ли мы переносить геометки с одних объектов на другие. В каждом случае отношений переносимость атрибута должна анализироваться отдельно иначе сложно избежать досадных ошибок.

Например, если папа ребёнка родился в Челябинске, а мама в Херсоне, то ребёнок у них может родится и в Калининграде. Анализируя информационные карточки родителей мы не можем задать геометку ребёнку и быть абсолютно уверенными. В то же время при отсутствии корректирующих значений мы можем анализировать статистику соотнесения мест рождения родителей и детей и делать вероятностные предположения. Впрочем, это тема для отдельной заметки.

По результатам проведения анализа формируется набор данных и правил необходимых для работы и он включает:

  • перечень атрибутов объекта и связанных с ним объектов участвующих в классификации;
  • справочник типов классификационной привязки;
  • правила извлечения гео-информации;
  • правила соотнесения извлечённых геоданных к типам классификационной привязки;

Что такое типы классификационной привязки? Типы классификационной привязки — это понятие используемое при сложных классификациях когда различные классификационные метки связаны различными онтологическими понятиями. Данные типы могут определяться двумя способами — построением онтологической модели до проведения анализа и накоплением данных в его процессе и построение онтологической модели по результатам.

Типы классификационной привязки для веб сайтов я определяю следующим образом:

  • Местонахождение (вопрос «Где?»). Определяет физическое местонахождение веб ресурса.
  • Владение (вопрос «Где владелец?»). Определяет физическое местонахождение организации или физ.лица владельца ресурса.
  • Аудитория (вопрос «Для кого?»). Определяет местонахождение потребителей информации с данного веб сайта, его целевую аудиторию.
  • Тематика (вопрос «О чём?»). Определяет геопривязки тематики ресурса.

Каждый из типов, также, может быть разбит на подтипы и дополнительную классификацию.

Например, классификация сайта туристического агенства.

  • веб сайт хостится в Германии — это метка Местонахождение.
  • организация физически находится в Санкт-Петербурге — это метка Владение.
  • Аудитория сайта — это Россия, поскольку поездки там могут заказать из любого города.
  • Тематика сайта — это Таиланд, Сингапур и Малайзия. О чём и написаны на нём статьи.

Далее для различных групп пользователей, потребителей информации разные метки могут иметь значение. Кроме того для различных типов веб сайтов, о их классификации отдельная и большая заметка, будут дополнительные метки и возможность уточнить существующие

Отсюда же одна из основных проблем всех известных мне интернет каталогов с гео-привязкой — YACA, Mail.ru и так далее в том что они не учитывают природы связки геометок и сайтов в каталоге.

About This Author

Яндекс.Метрика