Онтология веб’а. Тематическая, географическая и иная классификация веб сайтов
В том что касается онтологии веб и задач классификации — я несколько раз касался этой темы ранее в публикации «Эффективное геокодирование данных» и метапосте с полным перечнем моих заметок и рассуждений.
Я чуть подробнее остановлюсь на том что же являлось основной моих рассуждений и общем подходе к классификации который далёк от алгоритмических способов.
Для начала зададимся вопросом о том что же такое веб сайт. Это домен, домен + содержимое, домен + содержимое + хостинг? Трактовок может быть множество. В моём представлении веб сайт это домен — как точка входа и совокупность программно-технических средств по предоставлению информации посетителям. Но более всего веб сайт является формой представления объектов материального мира в мире цифровом. А ещё более точнее, он является одной из форм представления и самозначащей сложной (составной) сущностью одновременно.
Говоря условно мы можем разделить практически все веб сайты на две условные категории — связанные один-к-одному с объектами внешнего, физического мира и ресурсами находящимися полностью в онлайне. Например, сайты компаний, туристических агенств, городов, офлайновых магазинов, курортов, путеводителей, выставок — все они один в один являются онлайновыми представительствами данных объектов в сети.
А вот сайты поисковых систем, тематических порталов, онлайнового радио, социальных сетей (по большей части), онлайновых газет и журналов (отчасти) и ещё ряда других — являются исключительно онлайновыми ресурсами.
Эта, первоначальная, буквально бинарная классификация всех ресурсов на две категории позволяет в дальнейшем перейти к ответу на вопросы о том как же определить привязку веб-сайта к географическим координатам.
В прошлой заметке я упоминал следующие 4 типа привязок веб сайта к гео данным.
- Местонахождение (вопрос “Где?”). Определяет физическое местонахождение веб ресурса.
- Владение (вопрос “Где владелец?”). Определяет физическое местонахождение организации или физ.лица владельца ресурса.
- Аудитория (вопрос “Для кого?”). Определяет местонахождение потребителей информации с данного веб сайта, его целевую аудиторию.
- Тематика (вопрос “О чём?”). Определяет геопривязки тематики ресурса.
Эти привязыки, на самом деле, хотя и являются шагов в сторону понимания природы связывания веб ресурса и географических координат тем не менее являются значительным упрощением поскольку на самом деле. Разные типы ресурсов относимых к категории ресурсов связанных с офлайновыми объектами могут обладать различной структурой привязок. У одного холдинга может быть множество предприятий разбросанных по миру, аудиторией сайта посольства могут быть как жители страны чьимпосольством оно является, так и жители страны где оно находится и так далее и тому подобное. В идеальном информационном мире можно было бы говорить о существовании единой семантической базы данных а ля Википедия где все эти данные были бы структурированы. Но мы находимся в ситуации когда структуризация явлений всё ещё только начинается, а задачи классификации являются обратными — мы по форме проявления явления и характеристиках находящегося за ним объекта находим связанную информацию. Отсюда работа по построению полноценной онтологии объектов и явлений несопоставима по объёмам к решаемой нами задаче, отсюда 4 типа привязок — это экспертно обобщённые признаки наиболее распространённые среди офлайновых явлений, а также те признаки которыми могут обладать и веб-сайты как самозначащие явления.
Мои рассуждения и подход и к классификации основываются на том что каждая из этих привязок анализируется для снятия всех или ключевых случаев снятия неоднозначностей.
Теперь подробнее о привязках.
1. Местонахождение
Мы рассматриваем веб сайт как составной объект из домена и содержания. По домену сайта можно определить перечень IP адресов данный сайт обслуживающий, а по IP адресу можно определить местонахождение сайта по IP Geobase. Но, при этом необходимо учитывать следующие факторы-исключения:
- в случае использования CDN в веб сайте IP адреса могут относится не к фактическому местонахождению оборудования, а к серверам используемых в CDN.
- привязка IP адреса к географическим координатам справедлива для хостеров, но для международных компаний далеко не факт что физически сервер находится там же где зарегистрирована подсеть.
Первый фактор частично снимается за счёт выявления и ведения реестра CDN провайдеров, второй фактор менее критичен для веб и в данном случае рассматривается как допустимая ошибка.
Поскольку местонахождение ресурса привязано к хостингу, то определить его возможно лишь в тех случаях когда владелец ресурса использует коммерческий хостинг или выставляет веб-ресурс в Интернет самостоятельно. В случаях бесплатного хостинга признак местонахождения хотя и присутствует, но куда менее важен.
2. Владение
Владение веб сайтом подразумевает географическое месторасположение организации или физического лица владеющего им. Владением может быть определено по данным о домене в Whois — в частности, по телефону, факсу, e-mail и ключевым словам.
Кроме того владение сайтом может быть определено по представленной на нём контактной информации и, в случае возможности отделить блоки содержащие контактную информацию от других блоков сайта с геометками. Ключевое здесь в том что контактная информация содержится не на всех сайтах, а на тех где она содержится можно перепутать её с другими геоданными и задача выявления контактной информации подпадает и под выявление веб страниц несущих эту контактную информацию, и под предварительное определение типа веб ресурса.
Например, если веб ресурс является веб сайтом компании то практически наверняка контактная информация на нём присутствует причём, в подавляющем большинстве случаев не глубже 2-го или 3-го уровня дерева навигации по сайту. А вот если веб сайт — это форум, то контактная информация может содержаться там на множестве страниц — записей на форуме и будеи нерелевантной реальным владельцам сайта. Без возможности отделения значимых для классификации страниц сайта-форума от незначимых, алгоритмы классификации будут заведомо ошибаться.
3. Аудитория
Аудитория любого веб сайта также является его геопризнаком. Если, к примеру, веб сайт в основном посещают люди из определённой страны, региона, области — всё это может быть показателем его востребованности именно там вне зависимости от местонахождения его владельца и от месторасположения его хостинга.
Аудитория веб сайта может быть определена несколькими способами:
- по анализу IP адресов через IPGeobase его посетителей, в том числе и за счёт использования внешних счётчиков;
- по регистрации сайта в каталогах в сети предусматривающих геопривязку, например, каталоги Яндекс и Mail.Ru
- по языку веб сайта, например, в случае национальных языков в РФ.
Особенность подобной привязки в том что число интернет-пользователей неравномерно и аудитория желаемая владельцами сайта при регистрации в каталогах и аудитория фактическая.
4. Тематика
Тематика сайта — это то непосредственно чему данный сайт посвящён и то насколько предмет его темы обладает географическими признаками. Несмотря на то что в некоторых случаях тема может пересекаться с аудиторией сайта и геопризнаками его владельца, тем не менее это иное.
Например, для сайтов посвящённых отдыху в тех или иных странах не редкость когда они описывают Таиланд, Индию, Египет и другие регионы при том что их владельцы и их аудитория находятся в России. Аналогичная может быть во множестве других случаев когда веб ресурс посвящённый событию или объекту в каком-либо регионе привлекает к нему внимание из других регионов.
В подавляющем большинстве случаев тематика определяется по ключевым словам и фразам присутствующим на сайте в блоках и разделах причём предварительная структурная классификация здесь, также, необходима поскольку критично отделение признаков относящихся к тематике сайта от признаков определяющих владение сайтом.
—
Разумеется эти рассуждения не являются чем-то окончательным, но они являются основной по которой строится модель логических взаимосвязей совокупности рассматриваемых объектов.
В итоге алгоритм геоклассификации веб сайтов в полноценном режиме тянет за собой необходимость в классификации веб страниц, высокоуровневой рубрикации сайтов, определения CMS (дабы отделить форумы и другие ресурсы с высоким уровнем UGC) и так далее. Причём все эти алгоритмы самозначны и сами по себе и точно также весьма непросты в описании и реализации.
Реализация алгоритма геоклассификации о котором я писал ранее, она как раз и основывалась на систематизации перечисленного выше и использования расширенной базы типов геопризнаков привязанных через коэффициенты к различным типам ресурсов и 4-м типам геометок.
Типы геопризнаков и их систематизация — это отдельная большая тема. Туда будут входить коды стран и городов телефонов, почтовые индексы, адреса, названия административных и территориальных географических областей и многое и многое другое.
В том экспериментальном алгоритме о котором я писал ранее использовалось 14 различных правил и признаков, в подготовленном, но пока нереализованном алгоритме их минимум 25, а скорее будет около 50. Впрочем о геопризнаках я ещё напишу отдельно, их роль весьма существенна. Пока же ключевым является систематизация классификации от алгоритмических методов к пониманию природы классифицируемых данных.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






