Систематизация контентного анализа
Задачка по систематизации которую я в шутку привёл ранее — это, на самом деле, только лишь простой пример того что, например, необходимо делать при любом серьёзном контентном анализе.
До появления любого решения — идёт систематизация этого решения. Эта систематизация может занимать долгое время, но алгоритмы/решения созданные по её результатам могут оказаться заведомо проще существующих.
Перефразируя фразу «больше данных — точнее алгоритмы» выдвину предположение «сложный анализ — простые алгоритмы».
Иногда эти самые простые решения необходимо искать более чем сложными способами и решениями массы промежуточных задач. Так чтобы обеспечить осмысленное индексирование — необходимо уметь распознавать CMS сайта, определение визуальной и логической структуры веб страниц. Чтобы распознавать CMS необходимо уметь производить «микротипизацию» страниц сайтов. Чтобы определять логическую структуру веб страниц — необходимо уметь сводить полуструктурированные данные их участков к набору шаблонов. Чтобы сводить данные об участках к меташаблонам, необходимо уметь классифицировать и определять базовые шаблоны.
И ещё многое и многое необходимое при работе с формами представления информации.
В итоге анализ данных сложен, иногда, возможно, чрезмерно сложен, но решения в итоге оказываются простыми.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






