Онтология веб’а. Тематическая, географическая и иная классификация веб сайтов

В том что касается онтологии веб и задач классификации — я несколько раз касался этой темы ранее в публикации «Эффективное геокодирование данных» и метапосте с полным перечнем моих заметок и рассуждений.

Я чуть подробнее остановлюсь на том что же являлось основной моих рассуждений и общем подходе к классификации который далёк от алгоритмических способов.

Для начала зададимся вопросом о том что же такое веб сайт. Это домен, домен + содержимое, домен + содержимое + хостинг? Трактовок может быть множество. В моём представлении веб сайт это домен — как точка входа и совокупность программно-технических средств по предоставлению информации посетителям. Но более всего веб сайт является формой представления объектов материального мира в мире цифровом. А ещё более точнее, он является одной из форм представления и самозначащей сложной (составной) сущностью одновременно. 

Говоря условно мы можем разделить практически все веб сайты на две условные категории — связанные один-к-одному с объектами внешнего, физического мира и ресурсами находящимися полностью в онлайне.  Например, сайты компаний, туристических агенств, городов, офлайновых магазинов, курортов, путеводителей, выставок — все они один в один являются онлайновыми представительствами данных объектов в сети. 

А вот сайты поисковых систем, тематических порталов, онлайнового радио, социальных сетей (по большей части), онлайновых газет и журналов (отчасти) и ещё ряда других — являются исключительно онлайновыми ресурсами. 

Эта, первоначальная, буквально бинарная классификация всех ресурсов на две категории позволяет в дальнейшем перейти к ответу на вопросы о том как же определить привязку веб-сайта к географическим координатам.

В прошлой заметке я упоминал следующие 4 типа привязок веб сайта к гео данным.

  • Местонахождение (вопрос “Где?”). Определяет физическое местонахождение веб ресурса.
  • Владение (вопрос “Где владелец?”). Определяет физическое местонахождение организации или физ.лица владельца ресурса.
  • Аудитория (вопрос “Для кого?”). Определяет местонахождение потребителей информации с данного веб сайта, его целевую аудиторию.
  • Тематика (вопрос “О чём?”). Определяет геопривязки тематики ресурса.

Эти привязыки, на самом деле, хотя и являются шагов в сторону понимания природы связывания веб ресурса и географических координат тем не менее являются значительным упрощением поскольку на самом деле. Разные типы ресурсов относимых к категории ресурсов связанных с офлайновыми объектами могут обладать различной структурой привязок. У одного холдинга может быть множество предприятий разбросанных по миру, аудиторией сайта посольства могут быть как жители страны чьимпосольством оно является, так и жители страны где оно находится и так далее и тому подобное. В идеальном информационном мире можно было бы говорить о существовании единой семантической базы данных а ля Википедия где все эти данные были бы структурированы. Но мы находимся в ситуации когда структуризация явлений всё ещё только начинается, а задачи классификации являются обратными — мы по форме проявления явления и характеристиках находящегося за ним объекта находим связанную информацию. Отсюда работа по построению полноценной онтологии объектов и явлений несопоставима по объёмам к решаемой нами задаче, отсюда 4 типа привязок — это экспертно обобщённые признаки наиболее распространённые среди офлайновых явлений, а также те признаки которыми могут обладать и веб-сайты как самозначащие явления.

Мои рассуждения и подход и к классификации основываются на том что каждая из этих привязок анализируется для снятия всех или ключевых случаев снятия неоднозначностей. 

Теперь подробнее о привязках. 

1. Местонахождение

Мы рассматриваем веб сайт как составной объект из домена и содержания. По домену сайта можно определить перечень IP адресов данный сайт обслуживающий, а по IP адресу можно определить местонахождение сайта по IP Geobase. Но, при этом необходимо учитывать следующие факторы-исключения:

 — в случае использования CDN в веб сайте IP адреса могут относится не к фактическому местонахождению оборудования, а к серверам используемых в CDN. 

— привязка IP адреса к географическим координатам справедлива для хостеров, но для международных компаний далеко не факт что физически сервер находится там же где зарегистрирована подсеть.

Первый фактор частично снимается за счёт выявления и ведения реестра CDN провайдеров, второй фактор менее критичен для веб и в данном случае рассматривается как допустимая ошибка. 

Поскольку местонахождение ресурса привязано к хостингу, то определить его возможно лишь в тех случаях когда владелец ресурса использует коммерческий хостинг или выставляет веб-ресурс в Интернет самостоятельно. В случаях бесплатного хостинга признак местонахождения хотя и присутствует, но куда менее важен.

2. Владение

Владение веб сайтом подразумевает географическое месторасположение организации или физического лица владеющего им. Владением может быть определено по данным о домене в Whois — в частности, по телефону, факсу, e-mail и ключевым словам.

Кроме того владение сайтом может быть определено по представленной на нём контактной информации и, в случае возможности отделить блоки содержащие контактную информацию от других блоков сайта с геометками. Ключевое здесь в том что контактная информация содержится не на всех сайтах, а на тех где она содержится можно перепутать её с другими геоданными и задача выявления контактной информации подпадает и под выявление веб страниц несущих эту контактную информацию, и под предварительное определение типа веб ресурса.

Например, если веб ресурс является веб сайтом компании то практически наверняка контактная информация на нём присутствует  причём, в подавляющем большинстве случаев не глубже 2-го или 3-го уровня дерева навигации по сайту. А вот если веб сайт — это форум, то контактная информация может содержаться там на множестве страниц — записей на форуме и будеи нерелевантной реальным владельцам сайта. Без возможности отделения значимых для классификации страниц сайта-форума от незначимых, алгоритмы классификации будут заведомо ошибаться.

3. Аудитория

Аудитория любого веб сайта также является его геопризнаком. Если, к примеру, веб сайт в основном посещают люди из определённой страны, региона, области — всё это может быть показателем его востребованности именно там вне зависимости от местонахождения его владельца и от месторасположения его хостинга.

Аудитория веб сайта может быть определена несколькими способами:

— по анализу IP адресов через IPGeobase его посетителей, в том числе и за счёт использования внешних счётчиков;

— по регистрации сайта в каталогах в сети предусматривающих геопривязку, например, каталоги Яндекс и Mail.Ru

— по языку веб сайта, например, в случае национальных языков в РФ.

Особенность подобной привязки в том что число интернет-пользователей неравномерно и аудитория желаемая владельцами сайта при регистрации в каталогах и аудитория фактическая. 

4. Тематика

Тематика сайта — это то непосредственно чему данный сайт посвящён и то насколько предмет его темы обладает географическими признаками. Несмотря на то что в некоторых случаях тема может пересекаться с аудиторией сайта и геопризнаками его владельца, тем не менее это иное.

Например, для сайтов посвящённых отдыху в тех или иных странах не редкость когда они описывают Таиланд, Индию, Египет и другие регионы при том что их владельцы и их аудитория находятся в России.  Аналогичная может быть во множестве других случаев когда веб ресурс посвящённый событию или объекту в каком-либо регионе привлекает к нему внимание из других регионов.

В подавляющем большинстве случаев тематика определяется по ключевым словам и фразам присутствующим на сайте в блоках и разделах причём предварительная структурная классификация здесь, также, необходима поскольку критично отделение признаков относящихся к тематике сайта от признаков определяющих владение сайтом.

Разумеется эти рассуждения не являются чем-то окончательным, но они являются основной по которой строится модель логических взаимосвязей совокупности рассматриваемых объектов.

В итоге алгоритм геоклассификации  веб сайтов в полноценном режиме тянет за собой необходимость в классификации веб страниц, высокоуровневой рубрикации сайтов, определения CMS (дабы отделить форумы и другие ресурсы с высоким уровнем UGC) и так далее. Причём  все эти алгоритмы самозначны и сами по себе и точно также весьма непросты в описании и реализации. 

Реализация алгоритма геоклассификации о котором я писал ранее, она как раз и основывалась на систематизации перечисленного выше и использования расширенной базы типов геопризнаков привязанных через коэффициенты к различным типам ресурсов и 4-м типам геометок. 

Типы геопризнаков и их систематизация — это отдельная большая тема. Туда будут входить коды стран и городов телефонов, почтовые индексы, адреса, названия административных и территориальных географических областей и многое и многое другое.

В том экспериментальном алгоритме о котором я писал ранее использовалось 14 различных правил и признаков, в подготовленном, но пока нереализованном алгоритме их минимум 25, а скорее будет около 50.  Впрочем о геопризнаках я ещё напишу отдельно, их роль весьма существенна. Пока же ключевым является систематизация классификации от алгоритмических методов к пониманию природы классифицируемых данных.

About This Author

Яндекс.Метрика