Geotagging — заблуждения и размышления

Углубившись в тему ещё немного убеждаюсь что в ней как и во многих других классификационных задачах популярны заблуждения приводящие к неверным выводам.

Так назначение гео-меток — это не только поиск географических названий, это ещё и анализ принципиальной и смысловой возможности этого назначения.

Рассмотрим пример. Василий Пупкин блоггер недавно переехавший из Москвы в Сидней пишет на иврите в свой блог с доменным именем vasya-moscow.ru на расположенный на хостинге в штате Вирджиния США о том что деревню Гадюкино где похоронена его прабабушка затопило.

Итого у нас есть целых 6 гео-меток:

1. Метка текущего месторасположения Пупкина — о чём он сам упоминает на одной из страниц блога.

2. Метка домена (moscow) который Вася зарегистрировал ещё до переезда.

3. Метка хостинга — США, Вирджиния

4. Метка деревни Гадюкино.

5. Текст на иврите — подозрения на аудиторию в Израиле

6. Национальный домен .ru — подозрения на присутствие в России.

Вопрос — как определить адрес блога и что с ним делать? Ответ в том что блог, рассматриваем его как сайт, сам по себе никакой гео-меткой не обладает. Да, да именно так. Гео-метками обладают связанные с ним информационные объекты. Иначе говоря меткой «moscow» сайт обладает не напрямую, а посредством доменного имени. Меткой Сиднея по факту обнаружения в тексте на определённой странице географического названия, меткой США, Вирджиния через хостинг и деревня Гадюкина как упоминание о событии в новостной ленте.

Все гео-метки для сайта чётко попадают под RDF Triple — что, чем является, посредством чего.

Поскольку приведённый пример изначально сложенее наиболее частых, то в реальных методах анализа всё проще, но всегда соответствует описанной 3-й связке. Дальнейшее соотнесение является декларативной операцией.

Вопрос — почему мы вообще можем соотнести веб сайт с географическим месторасположением? Допустимо ли подобное суждение в принципе? Если допустимо то по какой причине?

Веб-сайт, по сути, можно рассмотреть как объект обладающий рядом уникальных характеристик. В частности он может быть охарактеризован доменом и IP адресом, объектами являющимися предметами коммерческих отношений, подлежащих обязательной регистрации и обладающих или могущих обладать географической привязкой. Веб сайт характеризуется темой которая может быть явно связанной с определённым географическим местом, а также веб сайт связан с физической персоной или организацией всегда обладающих определёнными гео-метками (чаще всего более чем одним набором меток).

То есть — мы рассматриваем ресурс, объект не обладающий определённой характеристикой сам, но связанный со множеством других объектов такими характеристиками обладающими. Далее же остаётся лишь вопрос в том какие из этих характеристик переносимы, а какие нет.

Рассмотрим теперь пост в блоге — новость в которой упоминается наводнение в деревне Гадюкино. Обладает ли данная новость и данный пост гео-меткой? Нет! И считать так весьма опасное заблуждение. У новости нет и не может быть географических координат, координаты могут быть только у события или иных информационных объектах в данной новости упоминаемых. А вот у события «Наводнение в Гадюкино» есть гео-метка «Деревня Гадюкино», а упоминание в блоге — это суть упоминание новости. Кстати, системы автоматического связывания схожих новостей вроде Яндекс.Новости основаны именно на этом принципе — выделение событий как основы новости.

Суммируя всё вышеперечисленное — главное это даже не очень умные лингвистические и IR алгоритмы по извлечению информации, куда важнее понимание взаимосвязи информационных объектов и последующая классификация именно на основе этих знаний. Впрочем я и так постоянно пишу именно об этом.

About This Author

Яндекс.Метрика