Оказывается Opera разрабатывают Metadata Analysis and Mining Application что буквально один в один то чем я занимаюсь (исследую возможности).
У них там больший упор на структуру, у меня на её смысловой анализ, построение объектной карты и онтологии связей.
Например, меня мало интересует частота слов в скриптах сайтах или размеры файлов, зато мои алгоритмы могут распознавать порядка 40 CMS и расширяютсяп под большее число по совокупности признаков и отделять навигационные ссылки от смысловых и «проплаченных». Всяческая классификация сайтов — это отдельная, но связанная тема. Суммарно там очень много всего набирается сделать такой поисковик, в самом деле, не так уж сложно, особенно когда есть запас наработок по теме
Как бы то ни было, проект очень интересный, а для меня так особенно.
Моё мнение что создание такого поиска, а ещё правильнее, мета-базы веб страниц явной прибыли не принесёт, но определённо может помочь в создании проектов с коммерческими целями.
Главное, конечно, тут в понимании того для чего всё это нужно. Например, подозреваю что поиск инвестиций под подобный проект — дело бессмысленное.
Поделиться в соц. сетях
-
tynycatcaty
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






