Раздача датасетов — домены с геокодами

Может быть интересно для тех кто работает над определением гео-расположением веб сайтов — выкладываю небольшой датасет в 5000 ресурсов в зонах .ru и .su. Он доступен по ссылке — http://urlus.ru/static/research/ru_5000.csv.gz (37 KB)

Структура CSV файла:

1. домен 2-го уровня

2. уровень гео-метки: 0 — отсутствует, 2 — город, 1 — регион, 3 — страна. Эта нумерация следствие специфики правил и далее изменится.

3. правило выявления метки — внутренний атрибут

4. Географическое местоположение в виде строки (Москва, Владивосток, Ленинградская область и т.п.).

И несколько дополнений:

  • метки региона или города назначаются только ресурсам определённым как российские;
  • из нескольких меток сайта показывается только самая вероятная. На самом деле их, конечно, выявляется больше.
  • к Geo2IP данная выборка не имеет никакого отношения. Алгоритм определения местоположения работает на принципиально иной основе.

Соответственно какие-либо ограничения на использование отсутствуют.

About This Author

Яндекс.Метрика