Систематизация контентного анализа

Задачка по систематизации которую я в шутку привёл ранее — это, на самом деле, только лишь простой пример того что, например, необходимо делать при любом серьёзном контентном анализе.

До появления любого решения — идёт систематизация этого решения. Эта систематизация может занимать долгое время, но алгоритмы/решения созданные по её результатам могут оказаться заведомо проще существующих.

Перефразируя фразу «больше данных — точнее алгоритмы» выдвину предположение «сложный анализ — простые алгоритмы».

Иногда эти самые простые решения необходимо искать более чем сложными способами и решениями массы промежуточных задач. Так чтобы обеспечить осмысленное индексирование — необходимо уметь распознавать CMS сайта, определение визуальной и логической структуры веб страниц. Чтобы распознавать CMS необходимо уметь производить «микротипизацию» страниц сайтов. Чтобы  определять логическую структуру веб страниц — необходимо уметь сводить полуструктурированные данные их участков к набору шаблонов. Чтобы сводить данные об участках к меташаблонам, необходимо уметь классифицировать и определять базовые шаблоны.

И ещё многое и многое необходимое при работе с формами представления информации.

В итоге анализ данных сложен, иногда, возможно, чрезмерно сложен, но решения в итоге оказываются простыми.

About This Author

Яндекс.Метрика