Иван Бегтин
Раздача датасетов — домены с геокодами
Может быть интересно для тех кто работает над определением гео-расположением веб сайтов — выкладываю небольшой датасет в 5000 ресурсов в зонах .ru и .su. Он доступен по ссылке — http://urlus.ru/static/research/ru_5000.csv.gz (37 KB)
Структура CSV файла:
1. домен 2-го уровня
2. уровень гео-метки: 0 — отсутствует, 2 — город, 1 — регион, 3 — страна. Эта нумерация следствие специфики правил и далее изменится.
3. правило выявления метки — внутренний атрибут
4. Географическое местоположение в виде строки (Москва, Владивосток, Ленинградская область и т.п.).
И несколько дополнений:
- метки региона или города назначаются только ресурсам определённым как российские;
- из нескольких меток сайта показывается только самая вероятная. На самом деле их, конечно, выявляется больше.
- к Geo2IP данная выборка не имеет никакого отношения. Алгоритм определения местоположения работает на принципиально иной основе.
Соответственно какие-либо ограничения на использование отсутствуют.
Поделиться в соц. сетях
Tagged with: датасеты
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (928)
- eGov (947)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (52)
- открытые данные (11)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (946)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






