Посты в категории: %d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f

Извлечение структурированных данных — чтение

Месяца два назад мне попалась на глаза диссертация Эрика Шляйтера (Erik Schlyter) «Structured Data Extraction«, она есть в сети по ссылке и довольно любопытна. Автор делает обзор нескольких алгоритмов по извлечению данных из HTML и применимости такого подхода для извлечения данных о продуктах в своей системе PIEME.

Из материалов по

Читать больше

Онтологии IR

Так сложилось что неструктурированные данные и ряд областей работы с ними — классификация, извлечение информации и сфокусированное индексирование для меня являются, и частью работы, в примере Енота Поискуна, и любимым хобби в части анализа ссылок, геоклассификации сайтов и ещё ряда пока закрытых проектов.

Есть технологические области которые

Читать больше

Целостность формы представления информации

Я упоминал об этом ранее в в различных записях по системам госзакупок, но по дальнейшему наблюдению приходится отметить что проблема глубже какой-либо конкретной области.

Что такое целостность формы?

Целостность формы — это когда рассматриваемая единица информации (по английски называемые datum, по русски я использую понятие информационный объект), может быть предствлена в форме

Читать больше

Регулярные выражения на больших выборках данных

Обнаружил интересное исследование A Fast Regular Expression Indexing Engine и подход к применению регулярных выражений на больших датасетах в вебе на основе предварительного индексирования NGram.

Учитывая что я сейчас активно размышляю (активное размышление=проведение экспериментов) над схожей темой, мне вспомнилось как ещё пару лет назад у меня выдался разговор с разработчиком

Читать больше

Анти-паттерны юзабилити

Поначалу хотел привести их в пример, в дальнейших рассуждениях по работе с информацией, но их накопилось столько что можно рассматривать отдельно. Далее несколько примеров проблем с юзабилити с точки зрения работы с информацией:

1. Форматы дат

В России общепринятая формы написании даты — это «dd.mm.yyyy» и «dd/mm/yyyy», например, «29.11.2007», эту

Читать больше

Мир как поток и совокупность информации. Часть 2

В первой части я писал о восприятии информации в рамках модели событие-факт и о понятиях информационного потока и связанных с ним явлений. Далее я подробнее остановлюсь на структуре и метриках информационных потоков.

Одна из основных задач при отделении потоков информации друг от друга — является разделение их на основе метрик

Читать больше

Яндекс.Метрика