<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Комментарии: Работа с данными с нечеткой структурой</title>
	<atom:link href="http://ivan.begtin.name/2009/04/01/%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%b0-%d1%81-%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%bc%d0%b8-%d1%81-%d0%bd%d0%b5%d1%87%d0%b5%d1%82%d0%ba%d0%be%d0%b9-%d1%81%d1%82%d1%80%d1%83%d0%ba%d1%82%d1%83%d1%80%d0%be/feed/" rel="self" type="application/rss+xml" />
	<link>http://ivan.begtin.name/2009/04/01/%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%b0-%d1%81-%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%bc%d0%b8-%d1%81-%d0%bd%d0%b5%d1%87%d0%b5%d1%82%d0%ba%d0%be%d0%b9-%d1%81%d1%82%d1%80%d1%83%d0%ba%d1%82%d1%83%d1%80%d0%be/</link>
	<description>Открытые данные, открытое государство</description>
	<lastBuildDate>Tue, 07 Feb 2012 14:06:00 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<item>
		<title>Автор: SHCHERBAK</title>
		<link>http://ivan.begtin.name/2009/04/01/%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%b0-%d1%81-%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%bc%d0%b8-%d1%81-%d0%bd%d0%b5%d1%87%d0%b5%d1%82%d0%ba%d0%be%d0%b9-%d1%81%d1%82%d1%80%d1%83%d0%ba%d1%82%d1%83%d1%80%d0%be/comment-page-1/#comment-11275</link>
		<dc:creator>SHCHERBAK</dc:creator>
		<pubDate>Thu, 23 Apr 2009 09:28:46 +0000</pubDate>
		<guid isPermaLink="false">http://ivan.begtin.name/?p=1500#comment-11275</guid>
		<description>Тогда думаю название по лучше будет - данные с динамически изменяемой структурой. 
А то нечеткие данные это уж совсем не то. Даже динамически изменяемые данные это по вашему контексту будет не то...
Насчет безысходности - некоторые классы табличных структур не поддаются автоматической интерпретации и распознаванию... поэтому я и говорю несколько в таком печальном тоне. Уж что-то а с этими классами я достаточно долго работал.</description>
		<content:encoded><![CDATA[<p>Тогда думаю название по лучше будет &#8212; данные с динамически изменяемой структурой.<br />
А то нечеткие данные это уж совсем не то. Даже динамически изменяемые данные это по вашему контексту будет не то&#8230;<br />
Насчет безысходности &#8212; некоторые классы табличных структур не поддаются автоматической интерпретации и распознаванию&#8230; поэтому я и говорю несколько в таком печальном тоне. Уж что-то а с этими классами я достаточно долго работал.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Автор: ivbeg</title>
		<link>http://ivan.begtin.name/2009/04/01/%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%b0-%d1%81-%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%bc%d0%b8-%d1%81-%d0%bd%d0%b5%d1%87%d0%b5%d1%82%d0%ba%d0%be%d0%b9-%d1%81%d1%82%d1%80%d1%83%d0%ba%d1%82%d1%83%d1%80%d0%be/comment-page-1/#comment-11264</link>
		<dc:creator>ivbeg</dc:creator>
		<pubDate>Thu, 09 Apr 2009 09:24:11 +0000</pubDate>
		<guid isPermaLink="false">http://ivan.begtin.name/?p=1500#comment-11264</guid>
		<description>Под нечеткой структурой я имел, в первую очередь, не изменчивость  в статическом массиве данных, а изменчивость с течением времени. Например, для веб сайтов характерно то что время от времени структура их веб страниц меняется и нельзя на 100% положится на сформированные шаблоны при длительной обработке информации. Термин &quot;нечёткая структура&quot;, пожалуй, действительно не лучший, но пока не могу подобрать более верного. 

В том что касается табличной верстки и вообще таблиц, на самом деле ситуация не столь безыходна что нельзя делать, в том числе и в автоматическом режиме, гипотезы по структуре сайта и далее их проверять. 
К примеру, мой алгоритм превращения новостных блоков в RSS вообще не учитывает специфики таблиц. Фактически, он выполняет лишь довольно простые логически и сложные алгоритмически действия по поиску повторяющихся блоков, отделения от этих блоков дат и заголовка, далее, огрублённая группировка всех нераспознанных участков в поле description в RSS. 

При этом есть случаи когда новостные блоки в табличной форме, есть случаи когда это просто списки, а есть и сложные ситуации когда это блоки без чётких границ между собой и требуется выравнивание их структуры.

Анализ табличных данных - это, имхо, несколько другая история. Для классификации потребуются довольно длительные усилия по классификации типов полей, правил кластеризации и так далее. Я интересовался немного этой темой в целях анализа и классификации структуры таблиц для последующего ручного связывания её полей с RDF или иными спецификациями, но простого решения найти не удалось. Впрочем не могу сказать что посвятил много времени именно этой теме.</description>
		<content:encoded><![CDATA[<p>Под нечеткой структурой я имел, в первую очередь, не изменчивость  в статическом массиве данных, а изменчивость с течением времени. Например, для веб сайтов характерно то что время от времени структура их веб страниц меняется и нельзя на 100% положится на сформированные шаблоны при длительной обработке информации. Термин &#171;нечёткая структура&#187;, пожалуй, действительно не лучший, но пока не могу подобрать более верного. </p>
<p>В том что касается табличной верстки и вообще таблиц, на самом деле ситуация не столь безыходна что нельзя делать, в том числе и в автоматическом режиме, гипотезы по структуре сайта и далее их проверять.<br />
К примеру, мой алгоритм превращения новостных блоков в RSS вообще не учитывает специфики таблиц. Фактически, он выполняет лишь довольно простые логически и сложные алгоритмически действия по поиску повторяющихся блоков, отделения от этих блоков дат и заголовка, далее, огрублённая группировка всех нераспознанных участков в поле description в RSS. </p>
<p>При этом есть случаи когда новостные блоки в табличной форме, есть случаи когда это просто списки, а есть и сложные ситуации когда это блоки без чётких границ между собой и требуется выравнивание их структуры.</p>
<p>Анализ табличных данных &#8212; это, имхо, несколько другая история. Для классификации потребуются довольно длительные усилия по классификации типов полей, правил кластеризации и так далее. Я интересовался немного этой темой в целях анализа и классификации структуры таблиц для последующего ручного связывания её полей с RDF или иными спецификациями, но простого решения найти не удалось. Впрочем не могу сказать что посвятил много времени именно этой теме.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Автор: SHCHERBAK</title>
		<link>http://ivan.begtin.name/2009/04/01/%d1%80%d0%b0%d0%b1%d0%be%d1%82%d0%b0-%d1%81-%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%bc%d0%b8-%d1%81-%d0%bd%d0%b5%d1%87%d0%b5%d1%82%d0%ba%d0%be%d0%b9-%d1%81%d1%82%d1%80%d1%83%d0%ba%d1%82%d1%83%d1%80%d0%be/comment-page-1/#comment-11263</link>
		<dc:creator>SHCHERBAK</dc:creator>
		<pubDate>Wed, 08 Apr 2009 20:16:14 +0000</pubDate>
		<guid isPermaLink="false">http://ivan.begtin.name/?p=1500#comment-11263</guid>
		<description>Не буду обращать внимание на то, что пост опубликован первого апреля. И считаю, что содержимое поста не шутка. 

то что необходимо распознавать структуру это однозначно полезно, но на сегодняшний день если посмотреть на OCR-системы(например) тот же Finereader весьма и весьма неплохо распознает структуру любой таблицы(даже с разрушенной структурой). и поверьте возможная реализация их алгоритма в online -сервисе позволит распознавать таблицы в PDF и других бинарных форматах с очень высокой точностью. А для структурного анализа текстовых форматов с целью выявления табличных данных существует десятка 2 алгоритмов. о некоторых из которых можно почитать в онлайн. Только была бы в них необходимость...

Скажу честно с написанного поста я не понял, что такое нечеткая структура данных или данные с нечеткой структурой (не в обиду автору). Вообще мне кажется к структуре данных  слово нечеткая лучше не применять. Даже применение более подходящих аналогов к структуре - нечетковыраженная и нечеткоопределенная структура  в свое время вызвало немало дисскусий. И насколько помню эти термины были заменены.

Что касается &quot;Поиска решения для новостной информации закодированной в HTML&quot; здесь есть много неоднозначностей, что приводит к невозможности создания унифицированного решения, то есть автомат нельзя создать для всех случаев +особенно если вы вручную не указываете какая конкретно таблица из веб-страницы содержит новости (и где собственно границы семантически значимой таблицы).
 а для каких случаев у вас работает автомат я не увидел. Еще проблема  (а где то ж помню находил статистику на 2004 год) 52% сайтов интернета использует табличную верстку. то есть таблицы в таблицах. проанализировать это можно а вот проинтепретировать практически нельзя. Конечно на онтологиях есть решение, но тоже с ограничениями. еще хотел сказать когда табличные данные проанализированы, их нужно проинтепретировать, даже в терминах RSS, т.е нужно установить семантическое соответствие между элементами таблицы и терминами предметной области или RSS. Это сложно и практически невозможно так как в структуре семантики нет.
 В таблицах, и даже в таблицах HTML построенных с использованием Simple Table Model или Complex Table Model, средств выражения семантики практически нет, а учитывая то, что в большинстве случаев даже те средства что есть не используются. Сами понимаете, что будет получатся в результате анализа.   
Чесно говоря, если бы семантический интерпретатор таблиц был бы создан, то наверное как раз и не важно было бы  в RDF данные представлены или в таблицах, потому что мапинг всегда можно было бы сделать при необходимости))

С целями разработки заявленныз в посте средств согласен. Тем более вероятно в Linked Data семантика менее важна чем в  Semantic Web, но без возможности интерпретации цена этим структурированным данным не велика.</description>
		<content:encoded><![CDATA[<p>Не буду обращать внимание на то, что пост опубликован первого апреля. И считаю, что содержимое поста не шутка. </p>
<p>то что необходимо распознавать структуру это однозначно полезно, но на сегодняшний день если посмотреть на OCR-системы(например) тот же Finereader весьма и весьма неплохо распознает структуру любой таблицы(даже с разрушенной структурой). и поверьте возможная реализация их алгоритма в online -сервисе позволит распознавать таблицы в PDF и других бинарных форматах с очень высокой точностью. А для структурного анализа текстовых форматов с целью выявления табличных данных существует десятка 2 алгоритмов. о некоторых из которых можно почитать в онлайн. Только была бы в них необходимость&#8230;</p>
<p>Скажу честно с написанного поста я не понял, что такое нечеткая структура данных или данные с нечеткой структурой (не в обиду автору). Вообще мне кажется к структуре данных  слово нечеткая лучше не применять. Даже применение более подходящих аналогов к структуре &#8212; нечетковыраженная и нечеткоопределенная структура  в свое время вызвало немало дисскусий. И насколько помню эти термины были заменены.</p>
<p>Что касается &#171;Поиска решения для новостной информации закодированной в HTML&#187; здесь есть много неоднозначностей, что приводит к невозможности создания унифицированного решения, то есть автомат нельзя создать для всех случаев +особенно если вы вручную не указываете какая конкретно таблица из веб-страницы содержит новости (и где собственно границы семантически значимой таблицы).<br />
 а для каких случаев у вас работает автомат я не увидел. Еще проблема  (а где то ж помню находил статистику на 2004 год) 52% сайтов интернета использует табличную верстку. то есть таблицы в таблицах. проанализировать это можно а вот проинтепретировать практически нельзя. Конечно на онтологиях есть решение, но тоже с ограничениями. еще хотел сказать когда табличные данные проанализированы, их нужно проинтепретировать, даже в терминах RSS, т.е нужно установить семантическое соответствие между элементами таблицы и терминами предметной области или RSS. Это сложно и практически невозможно так как в структуре семантики нет.<br />
 В таблицах, и даже в таблицах HTML построенных с использованием Simple Table Model или Complex Table Model, средств выражения семантики практически нет, а учитывая то, что в большинстве случаев даже те средства что есть не используются. Сами понимаете, что будет получатся в результате анализа.<br />
Чесно говоря, если бы семантический интерпретатор таблиц был бы создан, то наверное как раз и не важно было бы  в RDF данные представлены или в таблицах, потому что мапинг всегда можно было бы сделать при необходимости))</p>
<p>С целями разработки заявленныз в посте средств согласен. Тем более вероятно в Linked Data семантика менее важна чем в  Semantic Web, но без возможности интерпретации цена этим структурированным данным не велика.</p>
]]></content:encoded>
	</item>
</channel>
</rss>

