Информационная архитектура наоборот и анализ форм
В прошлой заметке я писал про построение объектной карты сайта в практическом применении к поиску новостных страниц на сайтах для распознавания новостей. Разумеется, кроме этого применения есть и множество других, в основном не напрямую коммерческих или самозначных, но вспомогательных для других задач.
Интересно и другое — анализ веб ресурсов очень тесно перекликается с их информационной архитектурой, условной логикой их структуры и принципов наполнения.
Фактически, практически любой веб сайт, может быть представлен в виде набора разного уровня сложности и вложенности шаблонов страниц, ссылок, принципов взаимодействия с другими сайтами и большого числа мета-информационных метрик характеризующих веб ресурс.
В конечном итоге эти шаблоны поддаются анализу и последующей визуализации полностью автоматически или с минимальной ручной корректировкой. И здесь очень бы к месту пришлись наработки в области исскуственного интеллекта и просто «умные алгоритмы» действующие по принципу формирования гипотез и апробации их в действии вплоть до нахождения оптимального результата.
Слабость этой идеи в слабой готовности как технически так и на уровне общего понимания. Если обработка информации предметной, как то космические снимки или анализ генов уже достигло области практического применения, то исследование принципов «создания и жизни информации» как явление, всё ещё изучено очень незначительно. Фактически направления исследования информации можно разделить на те что ведутся поисковыми системами для повышения релевантности поисковой выдачи, поддержания сателлитных проектов и так далее, а также компаниями специализирующимися на обработке больших массивов данных из публичных источников.
Анализ веб сайтов восстановление их информационной архитектуры за счёт автоматического анализа их содержимого применимо не только для этой задачи. Оно применимо для множества самых разных областей.
Например, полгода назад, ища сайты по госзакупкам и объективно оценивая длительность поиска я с помощью небольшого автоматического скрипта искал такие сайты автоматически. Сейчас я знаю что большая часть работы которая шла в Еноте Поискуне по разбору веб страниц может быть доведена до автоматики на 90%. А то есть задача направленного индексирования с последующей структуризацией данных, может решаться без необходимости в разработке отдельных парсеров под каждый сайт, может решаться лишь с самым минимальным участием человека или же вообще без его участия.
Впрочем направленное индексирование лишь одна из областей применения. Возвращаясь к распознаванию новостей, то у этой области есть простые и комплексные решения от распознавания только текста до деталей и медиаинформации. Единственная более-менее сложная задача в большом числе регулярных выражений.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






