Интернет статистика и чего в ней нет. Планы

Не так давно наткнулся на сервис 1stat.ru — актуальная статистика по доменам в Рунете, с грамотно сделанным интерфейсом.

Сбор данных и их визуализация у них явно неплохо налажены — я для себя нашёл много интересного, а заодно понял чего мне нехватает и собственно это то какими исследованиями я уже давно занимаюсь — это смысловая классификация веб ресурсов.

Например, ещё в марте я прогонял серии тестов по выявлению различных CMS — в итоге появился алгоритм позволяющий определить где-то с пару десятков наиболее популярных CMS в рунете. Тогда это была не самая интересная для меня тема, но пару десятков тысяч сайтов я так проверил. Задача, в общем-то, простая в реализации, после формирования онтологической основы решения.

Сейчас я практически завершил алгоритм геоклассификации с провязкой к онтологии отношений веб ресурсов, ещё пара-тройка тестов на сложных выборках и всё. Эта задачка посложнее, но тоже решаемая.

Ещё одна тема — плотность и характер отношений между ресурсами — собственно именно её я решал когда публиковал результаты по выявлению платных ссылок. Чтобы понять характер отношений необходимо было вначале отсеять неревантные результаты которыми эти ссылки и являлись.

В итоге наработок накопилось много, плюс ещё многие которые я тут не упоминаю, но все касаются извлечения информации и классификации.

Единственная особенность всех моих алгоритмов — их первоначальная цель точность и провязка с онтологиями (не хочу использовать понятия семантический веб), а не производительность.

Ориентировочно до конца года, после запуска Скиура (преобразователя HTML в RSS), хотя бы часть из этих наработок появится в виде онлайновых сервисов. Во всяком случае все те в которых нет коммерческой составляющей будут доступны публично.

About This Author

Яндекс.Метрика