Geotagging результаты

Результаты по завершившейся за ночь задачке. Анализировалось суммарно 10 000 сайтов в .ru и .su.

1. Всего удалось определить регион для 9594 сайтов. Итого полнота (recall) ~ 96%

2. Из них 60% — это Москва. Московских сайтов 6043 от общего числа.

3. Около 1100 веб сайтов были определены только до уровня региона, что 11% от общего числа и 11,5% от всех распознанных

4. Проверка 100 ресурсов классифицированных как региональные показывает 98% точность. Ошибки возникают когда владелец ресурса находится в одном городе, а сам ресурс создаётся под аудиторию в другом. Пример — сайты rabota74.ru и rabota66.ru. Владелец один, аудитории у сайтов разные. Насколько это ошибка это вопрос, но пока классифицируем таким образом.

5. Использовались всего два правила классификации без последующего накопления меток. При активации дополнительных правил (порядка 10) и накоплении меток точность и полнота могут улучшиться.

Важным вопросом остаётся точность, так как получается что без ручной перепроверки или наличия каталога с гео метками проверить результаты сложно, требуется много времени и ручных усилий или проверка через IP2Geo. А вот в полноте сомнений нет — она будет только возрастать.

Ключевой момент — это онтологическая модель геокодирования. Необходима чёткая классификация меток — физическое расположение, ориентация на аудиторию и месторасположение юр. лица или физ. лица владельца сайта. Возможно тут могут присутствовать, также, дополнительные типы меток и некоторые из перечисленных пересекаться. Например рассмотрим такой ресурс на womenclub.ru. Геокодирование по владельцам (неточное) — Россия, Франция (Версаль), США; по хостингу — США; по аудитории — Россия, СНГ.

Вопрос в части улучшения возникает вокруг 11% ресурсов определённых на уровне региона и уточнение классификации этой группы представляется более интересным чем борьба за 4% неклассифицированных.

В общем же могу сказать что тема идёт вровень с определением тематики веб ресурса и выявлением структурных меток. В некоторых случаях они даже пересекаются когда георасположение позволяет уточнить тематику и тематика георасположение.

И, к чему же это всё нужно. Геокодирование — это не только элемент определения адресата, это ещё и метки «траст» / «не траст». Когда у владельцев веб ресурсов есть причины скрывать своё расположение и контакты — это может быть одним из факторов особого внимания к веб сайту со стороны фильтров поисковых систем.

About This Author

Яндекс.Метрика