Automatic Geotagging experiments

Продолжая тему работы с информацией и нетривиальной классификацией, на прошедших выходных я решил поставить эксперимент. Перечитав работу сотрудников Яндекса — Automatic Geotagging of Russian Web Sites я таки решился на эксперимент и поставил сам себе небольшую, но определённую задачу задачу из следующих пунктов.

1. Разобраться в механизме назначения гео-меток. Понять связуемость географического расположения ресурса с иными его характеристиками.
2. Реализовать его с равной или большей точностью чем определяется в исследовании выше
3. Сделать вышеперечисленное на принциально ином подходе, то что я называю связывание,  по сути, это подход по принципу классификации посредством ранее классифицированных метаданных.
4. И не потратить на всё это более 4 часов (выходные всё таки!)

Что получилось в итоге:

  • классификация выходит иерархической. Страну можно определить всегда, регион с высокой вероятностью (до 95%) и конкретный город/населённый пункт на 75-85%.
  • Из 5000 проанализированных сайтов — удалось отклассифицировать 4665. На произвольных выборках уровень анализируемости также держится на уровне 85-92%. Это то что называют Recall или полнотой.
  • оценки максимально возможной полноты колеблются в пределах 97-99%. Вопрос в том стоит ли уделять внимание именно этому.
  • пока отсутствуют оценки по точности (precision), но тут уже нехватка тестовой выборки и необходимость ручной перепроверки. Одно можно сказать точно, сам подход таков что, ниже 75% она не будет, а эмпирические предварительные оценки на малых выборках пл 100 ресурсов показывает уровень точности в 94-96%
  • производительность сильно неоптимизированного алгоритма — 3 секунды на сайт. При оптимизации будет около 1 секунды.
  • при добавлении к алгоритму ещё ряда замедляющих его проверок точность может быть значительно увеличена, до 95-97%.

Самое сложное во всём этом — это подготовка правильных справочников, но в итоге она решаемая. А как только представится возможность оценить точность алгоритма уже до деталей — покажу результаты более наглядно.

About This Author

  • http://www.nomer-odin.ru/ OH

    Актуально, особенно сейчас, после введения АРЗАМАСА.

Яндекс.Метрика