Интернет статистика и чего в ней нет. Планы
Не так давно наткнулся на сервис 1stat.ru — актуальная статистика по доменам в Рунете, с грамотно сделанным интерфейсом.
Сбор данных и их визуализация у них явно неплохо налажены — я для себя нашёл много интересного, а заодно понял чего мне нехватает и собственно это то какими исследованиями я уже давно занимаюсь — это смысловая классификация веб ресурсов.
Например, ещё в марте я прогонял серии тестов по выявлению различных CMS — в итоге появился алгоритм позволяющий определить где-то с пару десятков наиболее популярных CMS в рунете. Тогда это была не самая интересная для меня тема, но пару десятков тысяч сайтов я так проверил. Задача, в общем-то, простая в реализации, после формирования онтологической основы решения.
Сейчас я практически завершил алгоритм геоклассификации с провязкой к онтологии отношений веб ресурсов, ещё пара-тройка тестов на сложных выборках и всё. Эта задачка посложнее, но тоже решаемая.
Ещё одна тема — плотность и характер отношений между ресурсами — собственно именно её я решал когда публиковал результаты по выявлению платных ссылок. Чтобы понять характер отношений необходимо было вначале отсеять неревантные результаты которыми эти ссылки и являлись.
В итоге наработок накопилось много, плюс ещё многие которые я тут не упоминаю, но все касаются извлечения информации и классификации.
Единственная особенность всех моих алгоритмов — их первоначальная цель точность и провязка с онтологиями (не хочу использовать понятия семантический веб), а не производительность.
Ориентировочно до конца года, после запуска Скиура (преобразователя HTML в RSS), хотя бы часть из этих наработок появится в виде онлайновых сервисов. Во всяком случае все те в которых нет коммерческой составляющей будут доступны публично.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (928)
- eGov (947)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (52)
- открытые данные (11)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (946)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






