<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Иван Бегтин &#187; информация</title>
	<atom:link href="http://ivan.begtin.name/category/%d0%b8%d0%bd%d1%84%d0%be%d1%80%d0%bc%d0%b0%d1%86%d0%b8%d1%8f/feed/" rel="self" type="application/rss+xml" />
	<link>http://ivan.begtin.name</link>
	<description>Открытые данные, открытое государство</description>
	<lastBuildDate>Mon, 06 Feb 2012 14:32:43 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>О прозрачности, локальности, телевидении и приоритетах</title>
		<link>http://ivan.begtin.name/2012/02/04/information/</link>
		<comments>http://ivan.begtin.name/2012/02/04/information/#comments</comments>
		<pubDate>Sat, 04 Feb 2012 06:07:45 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[открытое государство]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=5587</guid>
		<description><![CDATA[<p style="text-align: center;">Я продолжаю читать и конспектировать мысли по Информационной диете. Мысли там всё более синхронны с моими &#8212; буквально читаю и думаю &#8212; &#171;О! Да, мне та же мысль в голову приходила&#187;.  А мыслей у меня возникает множество.</p> <p style="text-align: center;"><a href="http://ivan.begtin.name/wp-content/uploads/2012/02/rivb1.png"></a></p> <p>Темная сторона прозрачности</p> <p>В книге есть глава в 3 страницы посвящённая прозрачности. [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;">Я продолжаю читать и конспектировать мысли по Информационной диете. Мысли там всё более синхронны с моими &#8212; буквально читаю и думаю &#8212; &#171;О! Да, мне та же мысль в голову приходила&#187;.  А мыслей у меня возникает множество.</p>
<p style="text-align: center;"><a href="http://ivan.begtin.name/wp-content/uploads/2012/02/rivb1.png"><img class="aligncenter size-large wp-image-5591" title="rivb" src="http://ivan.begtin.name/wp-content/uploads/2012/02/rivb1-1024x560.png" alt="" width="597" height="326" /></a></p>
<p><strong>Темная сторона прозрачности</strong></p>
<p>В книге есть глава в 3 страницы посвящённая прозрачности. Автор в ней довольно убедительно и с примерами в виде отсылки к нескольким исследованиям и кейсам доказывает что прозрачность как идеология не ведёт ни к подотчетности, ни к эффективности, чиновников. Наоборот, публичное декларирование прозрачности и её демонстрация позволяет лишь &#171;выгнать тараканов из светлых частей комнаты в темные&#187;.</p>
<p>Он приводит вполне конкретные примеры.</p>
<p>- онлайн веб-камеры в реальном времени в офисах конгрессменов. Конгрессмены начинают утверждать что они &#171;открыты и прозрачны&#187;, но это никак не мешает им договариваться с лоббистами не у себя в офисах, а на коктельных вечеринках, а также выступать с законопроектами противоречащими интересам граждан.</p>
<p>- Recovery.gov. Сайт администрации Барака Обамы по мониторингу госрасходов в рамках огромной программы по восстановлению. Всего там отрепорчено о более чем 700 миллиардах долларов, но единственный случай когда нашли нарушение был на 2 миллиона долларов и был не от граждан, а от местных чиновников.</p>
<p>- маркирование еды числом калорий. Власти Нью-Йорка и ещё нескольких городов приняли закон об обязательном указании числа калорий для ресторанов начиная с определенного числа посадочных мест. Несколько групп исследователей провели работу по сопоставлению того как изменилось потребление у жителей охваченных этим регулированием. Выяснилось что, к примеру, у тех кто ходил в заведения быстрого питания вроде МакДональдс и похожих потребление не изменилось. А вот у посетителей Старбакс при сравнении заведения в Нью-Йорке и заведений в городах где нет такого регулирования выявилось снижение потребления числа калорий примерно на 6%. C 247 до 232. Это может показаться малосущественным однако если ещё уточнить то снижение калорий в еде было на 14%, а в напитках его небыло совсем.</p>
<p>Его выводы в том что прозрачность полезна когда она вплетена в гражданские активности, но она не может заменить прямоту и честность (integrity and honesty). А также то что без них она не более чем инструмент в руках более образованных по манипулированию менее образованными.</p>
<p>Далее он не без оснований хвалит проекты Sunlight Foundation такие как <a href="http://www.opencongress.org" target="_blank">OpenCongress</a> по конгрессу и <a href="http://opengovernment.org" target="_blank">OpenGovernment.org</a> по местным конгрессменам и ряд других.</p>
<p><strong>Локальность vs Глобальность</strong></p>
<p>Другой очень важный вопрос &#8212; это то насколько &#171;глобальные вопросы&#187; действительно важны. Он приводит известную фразу Марка Цукерберга что &#171;Белка умирающая у Вас во дворе может в большей степени соответствовать Вашим интересам прямо сейчас чем люди умирающие в Африке&#187;. Дословно это было вот так: A Squirrel Dying In Your Front Yard May Be More Relevant To Your Interests Right Now Than People Dying In Africa.</p>
<p>Отсюда же и развивается мысль что решений принимаемые на уровне страны или всего мира хотя и важны, но куда важнее решения принимаемые в том месте где вы живёте. А решения конгрессменов штата и местных чиновников куда больше отражаются на Вашей жизни.</p>
<p>У Джонсона в книге есть универсальный совет &#8212; &#171;Потребляй локально&#187;. Иначе говоря старайтесь быть больше в курсе того что происходит вокруг Вас, в Вашем районе, квартале, сообществе, территории и меньше уделяйте внимания национальным новостям, национальным телеканалам и проблемах &#171;далеко-далеко&#187; за морями.</p>
<p>Я с этим советом согласен и добавлю что да, мы зависим куда больше от местных событий чем от всеобщих. По этой причине меня лично мало заботят события в Ливии, Иране, США, Европе не затрагивающие мою профессиональную деятельность &#8212; &#171;e-Government&#187; и &#171;open government&#187;. Все остальные политические и экономические события, вы не поверите, но на личную жизнь не оказывают никакого влияния. Как и значительная часть национальных политических новостей.</p>
<p><strong>Телевидение</strong></p>
<p>Автор часто приводит в пример Fox News и другие телевизионные программы с общей идеей что от телевидения следует держаться подальше. Отказаться от его употребления в какой-либо форме и, только по мере необходимости и желания, смотреть выбранные эпизоды и фильмы по онлайн подписке где можно заплатить до $2 за эпизод.</p>
<p>Для США он приводит разумный аргумент с точки зрения экономии что это дешевле чем платить минимум в $600 за годовую подписку на кабельное телевидение. Для других стран вроде России где телевидение по основным каналом бесплатно &#8212; экономия неактуальна. Актуально, конечно, неуправляемость телевизионного сигнала. Нельзя прокрутить изображение, остановить, выбрать то что хочется и так далее. Иначе говоря трансформация информационного потребления оставляет телевидение на обочине. И если, к примеру, радио уже заняло свою узкую нишу прослушивания его в автомобилях и по утрам при пробуждении, то телевидение стремительно теряет популярность с ростом проникновения и качества доступа в Интернет.</p>
<p>Я считаю что так оно и будет, а все государственные программы по развитию цифрового телевидения больше похожи на бессмысленную трату денег. Не по той причине что эти программы неосуществимы, а по той что они будут не востребованы в конечном итоге. Это, конечно, касается не только России, но и всех стран где цифровое телевидение внедряется.</p>
<p><strong>Важно потреблять первичную информацию</strong></p>
<p>Мысль не новая, однако не менее актуальная. Потребление новостей должно быть максимально приближено к их источнику. Чем более вторичны и переработаны новости тем больше вероятность того что информация существенно искажена. А возможно что и полностью неверна. Джонсон советует всегда читать первоисточники и подписываться на новости из первоисточников и читать только их.</p>
<p>Я с ним в этом целиком и полностью согласен и это одна из причин почему мы создавали проект &#171;<a href="http://federal.polit.ru" target="_blank">Официально</a>&#187; &#8212; получать необработанные госновости напрямую. Да, там куча всего бесполезного, но при наличии текстовых фильтров есть возможность отсеивать полезные сообщения и быть уверенным в том что они не подвергались переработке и искажению.</p>
<p><strong>Меньше рекламы</strong></p>
<p>В книге это называется &#171;Low-Ad&#187;. Речь о том что наша современная информационная культура, практика потребления информации, предполагает её бесплатность, однако за счет большей цены &#8212; рекламы. В то время как уменьшение объёмов рекламы крайне важно для разумного информационного потребления. Есть несколько сервисов и практик которые развивают эту идею. Одна из них &#8212; это платный доступ к контенту без рекламы, по примеру сервисов National Geographic, другой путь в использование таких сервисов как Readability и Instapaper.</p>
<p>Автор призывает минимизировать количество рекламы в Вашей жизни и использовать платные подписки на качественный  контент.</p>
<p>Я обращу внимание что он ничего не пишет про сервисы баннерорезок вроде AdWord предполагая ответственность потребителя информации и что реклама &#8212; это возможность авторам ресурсов её создавать. К тому же Readability является хорошей заменой вырезки баннеров. Идея потребления информации через оплату &#8212; сейчас популярна в США, многие онлайн издания реализуют её с целью сохранения качества публикаций. Вполне обоснованно, однако это работает только начиная с определённого уровня информационного самоосознания и наличия свободных средств и, действительно, меняет культуру потребления информации. Я считаю что это всё безусловно актуально и для России и совершенно точно будет развиваться. Хотя и врядли будет столь же прибыльно как в США, в виду нашей информационной периферийности.</p>
<p><strong>Влияние окружения</strong></p>
<p>Также как и с обычными диетами и вообще всем тем что определяет нашу социальную жизнь &#8212; мы сильно зависим от окружения. Зависим даже если сами считаем себя самодостаточными, умными, сформировавшимися личностями потому как мы всё равно полагаемся на примеры вокруг нас, даже если не всегда это осознаём. Это касается всего &#8212; ориентированности на успех, желания похудеть, чему-либо научиться и так далее.</p>
<p>Это также верно как то что если общаться с алкоголиками, то сложно бросить пить. С потреблением информации всё очень похоже. Если круг Вашего общения составляют люди которые считают что смотреть телевизор, зависать в социальных сетях и проводить часы в играх &#8212; это нормально, то и Вам будет непросто прийти к информационной диете. Шансов что Вы не выдержите и начнёте неконтролируемое потребление информации &#8212; очень много.</p>
<p>Поэтому важно общаться с теми кто осознаёт и регулирует своё потребление информации. Перенимать лучшие практики и смотреть как они достигают лучшего. В России есть множество ресурсов и сообществ посвящённые темам эффективности, борьбе с откладыванием и лайфхакингу. Я могу порекомендовать <a href="http://lifehacker.ru/" target="_blank">Lifehacker.ru</a>, там регулярно встречаются материалы и описания ресурсов близких к теме управления потоками личной информации. А заодно буду рад если Вы мне порекомендуете похожие ресурсы в комментариях.</p>
<p><strong>Мои личные мысли</strong></p>
<p>Как и у каждой хорошей книги ценность этой даже не в том что она исчерпывающе описывает проблему неконтролируемого потребления информации, а в том что она даёт множество отправных точек для размышления. Плюс множество ссылок на ресурсы и книги посвящённые этой проблеме.</p>
<p>У меня в голове стали восстанавливаться многочисленные примеры, как собственного потребления информации, так и реакции на чужое потребление и способность, хотя бы отчасти, вербализировать это понятными словами.</p>
<p>Например, я достаточно давно общаюсь в кругу людей считающих что смотрение телевизора человеком &#8212; это вполне достаточная причина чтобы не общаться с данным человеком без необходимости. Если только это не образовательные передачи, отчасти телеканал &#171;Культура&#187; или международные просветительские каналы вроде Discovery. Однако лучше всего &#8212; вообще не смотреть ничего. Это можно назвать формирующейся постепенно культурой &#171;инфонаци&#187; по аналогии с &#171;граммарнаци&#187;.  Поэтому я совершенно не удивлюсь появлению сообществ в формате &#171;Смотришь телевизор? Тогда ты не с нами!&#187;.  Это, разумеется, пока не распространяется на просмотр видео онлайн, поскольку там у того кто смотрит есть возможность контролировать видеопоток проникающий в собственное сознание.</p>
<p>Я лично отказался от телевизора начиная с 2005 года полностью, а ранее его также практически не смотрел года 3-4.</p>
<p>В принципе же информационное потребление &#8212; это суть развитие тех культурных особенностей что были и раньше при чтении книг и газет. По тому что человек читал можно было понять к какому социальному и культурному слою он относится, будут ли с ним общие темы для разговора, сможет ли он понять Вас, а Вы его.</p>
<p>Сейчас многие работодатели по той же причине просматривают блоги и профили кандидатов в соц. сетях. Это как первый, самый базовый фильтр адекватности человека.</p>
<p>Я вспоминаю как много лет назад один мой коллега прислал мне ссылку на профиль в соц. сети одной чиновницы с которой мы были вынуждены контактировать и в котором та указала в интересах Дом-2. Тогда это, отчасти дало нам ответ о том отчего общение с ней было столь бессодержательно.</p>
<p>Однако обратите внимание из чего складываются оценки &#8212; из информационного потребления.</p>
<p>Как резюме, потребление информации &#8212; это огромная тема особенно актуальная сейчас. Осознанное её потребление &#8212; это логичный шаг после осознания необходимости поддержания нормального веса, бросания курить, умеренно употреблять алкоголь и прочее.</p>
<p>Это наиболее практическая часть всего что можно назвать информационной психологией и тем самым наиболее востребовано разумными потребителями.</p>
<p><strong>Советы</strong></p>
<p>И несколько советов, часть из книжки, часть моих.</p>
<p>1. Начните учитывать то сколько и какой информации Вы потребляете. Поставьте себе, например, RescueTime (<a href="https://www.rescuetime.com/">https://www.rescuetime.com/</a>) программу которая мониторит какие программы вы используете и какие сайты вы смотрите на своём компьютере. Она же способна их классифицировать, а через веб-интерфейс отдавать Вам отчеты о том  насколько продуктивно Вы работали. Очень рекомендую, я пользуюсь ей уже год и теперь отчетливо понимаю сколь долгий путь мне ещё предстоит до разумного информационного потребления. У RescueTime есть также отличная функция &#8212; &#171;Get Focused&#187;. Будучи включённой она на 30 минут блокирует все отвлекающие сайты и программы. Рекомендую, этот текст был написан именно в таком режиме.</p>
<p>2. Заведите на компьютере отдельный аккаунт для игр и развлечений. Назовите его, например, &#171;Play&#187; и только в нём смотрите фильмы и играйте в игры. Во первых это придаст полную осознанность тому когда Вы будете развлекаться на компьютере, во вторых это позволит избавится от самообмана игры на заднем фоне. Когда Вы одновременно редактируете какой-нибудь файл, смотрите кино и ещё во что-то играете, периодически переключаясь между этими процессами.</p>
<p>3. Используйте Readability, есть плагины для всех основных браузеров и такие сервисы как View later и Instapaper. Старайтесь избегать рекламы и чтения текста в некомфортных условиях &#8212; неудобного размера и типа шрифтов, множественной мусорной информации и так далее. Создавайте себе комфортное информационное потребление.</p>
<p>4. Устраивайте себе информационные диеты часов по 6-8. Не просто вечер с книжкой на даче, а вообще постараться не потреблять никакой информации. Попробуйте поклеить модели, например, погулять в парке, порисовать, помастерить, поговорить с друзьями, приготовить что-то интересное и так далее. Главное сократить информационные потоки насколько это возможно. Конечно, важно не делать это резко, но важно делать это регулярно.</p>
<p>5. Читайте оригиналы и ищите первичную информацию. Старайтесь не доверять самым ярким и пронзительным эмоциональным статьям, всегда ищите первичную информацию, она зачастую может сильно отличаться от интерпретаций. Старайтесь чтобы между Вами и оригинальной информацией было как можно меньше посредников.</p>
<p>6. Если Вы можете себе это позволить &#8212; используйте платный безрекламный доступ к качественному контенту. Чаще всего оно того стоит.</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2012/02/04/information/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Информационная диета</title>
		<link>http://ivan.begtin.name/2012/01/30/informationdiet/</link>
		<comments>http://ivan.begtin.name/2012/01/30/informationdiet/#comments</comments>
		<pubDate>Mon, 30 Jan 2012 16:16:48 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[открытое государство]]></category>
		<category><![CDATA[открытые данные]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=5561</guid>
		<description><![CDATA[<p>Если Вы ещё не видели и не слышали &#8212; всячески рекомендую книжку <a href="http://www.informationdiet.com/" target="_blank">Information Diet</a> написанную Клэем Джонсоном (Clay Johnson)</p> <p>Собственно и сам автор человек интересный &#8212; он организовывал кампанию Барака Обамы в Интернете в 2008 году, а потом ещё долго продвигал открытость госданных через Sunlight Labs.</p> <p>Тема книжки как бы очевидна из названия. [...]]]></description>
			<content:encoded><![CDATA[<p>Если Вы ещё не видели и не слышали &#8212; всячески рекомендую книжку <a href="http://www.informationdiet.com/" target="_blank">Information Diet</a> написанную Клэем Джонсоном (Clay Johnson)</p>
<p>Собственно и сам автор человек интересный &#8212; он организовывал кампанию Барака Обамы в Интернете в 2008 году, а потом ещё долго продвигал открытость госданных через Sunlight Labs.</p>
<p>Тема книжки как бы очевидна из названия. То как мы потребляем информацию, то как правильно потреблять и многочисленные примеры. Особенно это актуально сейчас и важно то что автор это из среды философствующих об &#171;инфополе&#187;, а вполне такой живой практик.</p>
<p>Лично мне вчера пришли 3 экземпляра заказанные в Амазоне. Буду читать и дарить.</p>
<p>А может и сам напишу что-то подобное когда-нибудь.</p>
<p>Так что рекламирую без какого либо зазрения совести.</p>
<p><a href="http://www.amazon.com/gp/product/1449304680" target="_blank"><img class="size-full wp-image-5562 alignleft" title="infodiet" src="http://ivan.begtin.name/wp-content/uploads/2012/01/infodiet.jpg" alt="" width="300" height="300" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>Это полезная книга.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2012/01/30/informationdiet/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Про сбор данных и мобильные устройства</title>
		<link>http://ivan.begtin.name/2011/04/26/mobiles/</link>
		<comments>http://ivan.begtin.name/2011/04/26/mobiles/#comments</comments>
		<pubDate>Tue, 26 Apr 2011 09:50:13 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[data.gov.ru]]></category>
		<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[размышления]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=4253</guid>
		<description><![CDATA[<p>Думаю что все уже написали по поводу того что iPhone хранит историю передвижения человека. О чем можно почитать, например, тут - <a href="http://www.readwriteweb.com/archives/your_iphone_is_tracking_your_every_move.php">http://www.readwriteweb.com/archives/your_iphone_is_tracking_your_every_move.php</a></p> <p>А также про то что и Google &#171;делает это&#187; можно почитать в CNet &#8212; <a href="http://news.cnet.com/8301-31921_3-20056657-281.html">http://news.cnet.com/8301-31921_3-20056657-281.html</a></p> <p>Однако то что я могу сказать обо всем этом &#8212; это то что все это, конечно, вызывает [...]]]></description>
			<content:encoded><![CDATA[<p>Думаю что все уже написали по поводу того что iPhone хранит историю передвижения человека. О чем можно почитать, например, тут - <a href="http://www.readwriteweb.com/archives/your_iphone_is_tracking_your_every_move.php">http://www.readwriteweb.com/archives/your_iphone_is_tracking_your_every_move.php</a></p>
<p>А также про то что и Google &#171;делает это&#187; можно почитать в CNet &#8212; <a href="http://news.cnet.com/8301-31921_3-20056657-281.html">http://news.cnet.com/8301-31921_3-20056657-281.html</a></p>
<p>Однако то что я могу сказать обо всем этом &#8212; это то что все это, конечно, вызывает опасения и, конечно, неизбежно. Лично меня удивляет лишь то что они собирают данные только о передвижении, а не вообще обо всем и вся ибо вся эта информация, фактически, событийная может иметь прямые возможности использования в моделировании поведения человека/потребителя.</p>
<p>Но это только начало. Совсем недавно в посте про Пермский экономический форум я упоминал что мобильные устройства могут применятся весьма разнопланово, но практически всегда для сбора информации.</p>
<p>Так что же ещё может собираться?</p>
<p><strong>1. Пассивная аудиозапись, автоматически, по внешней команде, по местонахождению и так далее.</strong></p>
<p>Идея простая. Если аппаратные возможности смартфона позволяют выполнять на нем приложения при этом никак не показывая этого визуально &#8212; не подсвечивая экран и не показывая на нем ничего, то, к примеру, телефон может осуществлять пассивную аудиозапись, как все время, так и в определенные промежутки времени или в привязке к другим триггерам.</p>
<p>Главная сложность здесь в последующем снятии этой информации. Её передача по сети может быть детектирована, однако, все же, возможна.</p>
<p>Все упирается в полезность этой штуки. Казалось бы, шпионство и только? Но, нет. При наличии технологий распознавания речи, в том числе, сильно зашумленной это может быть подано как сервис авто-секретаря, автоматически регистрирующего  все диалоги, чтобы не была возможность к ним вернуться, при необходимости или вести по ним поиск.</p>
<p>Этот пласт событийности все ещё не окучен, но до него осталось совсем немного.</p>
<p><strong>2. Данные о других мобильных устройствах с Wifi</strong></p>
<p>Как я понимаю если устройство является Wifi роутером, то, оно, конечно, может детектировать другое устройство ищущее Wifi сети. А также, если я не ошибаюсь, то даже если устройство само находится в поиске точек для подключение, в принципе оно продолжает получать запросы при сканировании от других устройств. Иначе говоря, если смартфоны начнут регистрировать не только адреса стационарных Wifi сетей, но и других смартфонов сканирующих окружающее пространство, то эта информация может использоваться, в частности, для определения групп скопления людей (оценки посещаемости той или иной локации) и для определения их предпочтений.</p>
<p>Плюс даже имеющиеся механизмы сбора информации позволяют:</p>
<p>- собирать коммерческую информацию об инфраструктуре сотовых и Wifi операторов</p>
<p>- в будущем, возможно, обеспечивать точное определение месторасположения стационарных точек доступа к Wifi на основе данных о близлежащих точках.</p>
<p>&#8212;</p>
<p>Это все, конечно, не говоря о способах извлечения информации из человека на добровольной основе &#8212; подключение датчиков мониторинга медицинских показателей, извлечение биометрических  параметров, датчики погоды, активация режима &#8216;измененной реальности&#187;, сбор информации о посещении веб-сайтов и так далее.</p>
<p>На самом деле, все что для этого нужно &#8212; это появление аккумуляторов способных работать дольше и лучше.</p>
<p><strong><br />
</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2011/04/26/mobiles/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Итоги лекции в Киеве  об открытых данных</title>
		<link>http://ivan.begtin.name/2010/12/23/uadata/</link>
		<comments>http://ivan.begtin.name/2010/12/23/uadata/#comments</comments>
		<pubDate>Thu, 23 Dec 2010 20:50:58 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[data.gov.ru]]></category>
		<category><![CDATA[datasets]]></category>
		<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=3794</guid>
		<description><![CDATA[<p>Итак, вчера в Киеве завершилась моя лекция по открытым данным. Для меня это не первое выступление по этой теме, но, пожалуй, первое именно в формате лекции.</p> <p>За её организацию спасибо Полiт.уа, их статью о лекции можно прочитать тут &#8212; <a href="http://polit.ua/articles/2010/12/23/begtin.html">http://polit.ua/articles/2010/12/23/begtin.html</a></p> <p>Было немало вопросов, чувствовалось что в аудитории кто-то имеет опыт работы с информацией, но [...]]]></description>
			<content:encoded><![CDATA[<p>Итак, вчера в Киеве завершилась моя лекция по открытым данным. Для меня это не первое выступление по этой теме, но, пожалуй, первое именно в формате лекции.</p>
<p>За её организацию спасибо Полiт.уа, их статью о лекции можно прочитать тут &#8212; <a href="http://polit.ua/articles/2010/12/23/begtin.html">http://polit.ua/articles/2010/12/23/begtin.html</a></p>
<p>Было немало вопросов, чувствовалось что в аудитории кто-то имеет опыт работы с информацией, но для большинства это было вновинку. Многие сомневались что на Украине подобная тема и такие проекты возможны, что меня, если честно сильно удивило, казалось бы, и специалистов в ИТ немало, и судя по AidData и другим источникам внешней помощи через НКО тоже немало.</p>
<p>В реальности, пока ещё ситуация хуже чем в России, поскольку пока нехватает энтузиастов желающих заниматься этой темой, да и госорганы раскрывают даже меньше информации чем их российские аналоги.</p>
<p>Однако будем надеятся что и на Украине когда нибудь появится data.gov.ua и громодяне смогут создавать свои проекты для общественного блага.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/12/23/uadata/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>10 ошибок при анализе данных с точки зрения кошачьей статистики</title>
		<link>http://ivan.begtin.name/2010/12/23/datafaults/</link>
		<comments>http://ivan.begtin.name/2010/12/23/datafaults/#comments</comments>
		<pubDate>Thu, 23 Dec 2010 15:39:46 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[opengovdata.ru]]></category>
		<category><![CDATA[аналитика]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=3787</guid>
		<description><![CDATA[<p>В прекрасном блоге о анализе данных и статистики в частности под названием &#171;Stats with cata&#187; (<a href="http://statswithcats.wordpress.com/">http://statswithcats.wordpress.com/</a>) или &#171;Статистика с кошками&#187; появился пост под названием &#171;10 фатальных ошибок при анализе данных&#187; &#8212; <a href="http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/">http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/</a></p> <p>Всячески рекомендую его прочитать.</p> <p>А сам приведу краткую выжимку:</p> <p>1. &#171;Где говядина?&#187;   Цифры, выборки и данные без целей, ответов на [...]]]></description>
			<content:encoded><![CDATA[<p>В прекрасном блоге о анализе данных и статистики в частности под названием &#171;Stats with cata&#187; (<a href="http://statswithcats.wordpress.com/">http://statswithcats.wordpress.com/</a>) или &#171;Статистика с кошками&#187; появился пост под названием &#171;10 фатальных ошибок при анализе данных&#187; &#8212; <a href="http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/">http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/</a></p>
<p>Всячески рекомендую его прочитать.</p>
<p>А сам приведу краткую выжимку:</p>
<p>1. &#171;Где говядина?&#187;   Цифры, выборки и данные без целей, ответов на вопросы или желания &#171;рассказать историю&#187; &#8212; бессмысленны.</p>
<p>2. Фантомное население</p>
<p>3. Ненастоящие примеры</p>
<p>4. Достаточно значит достаточно</p>
<p>5. Потворство противоречиям</p>
<p>6. Сумашествие в методах</p>
<p>7. Торренты тестов</p>
<p>8. Значимые незначимости и незначимые значимости</p>
<p>9. Интоксикация экстраполированием</p>
<p>10. Невернонаправленные модели</p>
<p>В общем, рекомендую, и блог, и этот пост.</p>
<p>А ещё я вот о чём подумал. Это же какая гениальная делать блог со своими животными, но не о животных.</p>
<p>У меня тоже возникла гениальная идея &#8212; отдаю бесплатно, кто первым успеет её сделать.</p>
<p>Сделать что-то &#171;Электронное правительсто с&#187; и на выбор черепахами/козами/щенками/бобрами/крысами/рыжыми котами.</p>
<p>Например, вариант &#171;Электронное правительство с козлами&#187; и по русски хорошо звучит, а на английском будет &#171;eGov with goats&#187;. Осталось только коз найти.</p>
<p>Или вот &#171;Электронное правительство с рыжими котами&#187;. Нужен только рыжий кот с каким-нибудь популярным прозвищем на букву Ч, а на остальное фантазии хватит.</p>
<p>Ваши варианты?</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/12/23/datafaults/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Про метаданные документов. Без примеров</title>
		<link>http://ivan.begtin.name/2010/12/08/metadata/</link>
		<comments>http://ivan.begtin.name/2010/12/08/metadata/#comments</comments>
		<pubDate>Wed, 08 Dec 2010 07:45:27 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[opensource]]></category>
		<category><![CDATA[алгоритмы]]></category>
		<category><![CDATA[аналитика]]></category>
		<category><![CDATA[информация]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=3701</guid>
		<description><![CDATA[<p>Последний раз про метаданные в офисных документах я писал более года назад в этой заметке &#171;<a href="http://ivan.begtin.name/2009/06/18/%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5-%D1%81%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D1%85-%D0%BC%D0%B5%D1%82%D0%B0%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B8%D0%B7-%D0%B4%D0%BE%D0%BA/">Извлечение скрытых метаданных из документов MS Office</a>&#171;.</p> <p>Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и [...]]]></description>
			<content:encoded><![CDATA[<p>Последний раз про метаданные в офисных документах я писал более года назад в этой заметке &#171;<a href="http://ivan.begtin.name/2009/06/18/%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5-%D1%81%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D1%85-%D0%BC%D0%B5%D1%82%D0%B0%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B8%D0%B7-%D0%B4%D0%BE%D0%BA/">Извлечение скрытых метаданных из документов MS Office</a>&#171;.</p>
<p>Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.</p>
<p>Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно &#8212; примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.</p>
<p>Итак метаданные.</p>
<p>Если ранее я писал что есть два типа метаданных &#8212; метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше.  Вернее даже не метаданных, а информации идентифицирующей автора и окружение.</p>
<p>Фактически я бы разделил эту идентификационную информацию на 4 типа:</p>
<p>- <strong>метаданные документа</strong> – свойства (properties)  документа которые обычно забывают удалить при сохранении и пересылке.</p>
<p>- <strong>метаданные вложенных объектов</strong> &#8212; свойства вложенных OLE объектов и изображений.</p>
<p>- <strong>маркеры</strong> &#8212; данные в гипертексте документа идентифицирующие его владельца.</p>
<p>- <strong>скрытые данные -</strong><strong> </strong>информация в участках документа недоступных для визуального просмотра.</p>
<p>Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.</p>
<p><strong>1. Метаданные документа</strong></p>
<p>Это свойства документа которые видны если открыть его &#171;Свойства&#187; в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть &#171;чувствительную информацию&#187; о том кто был на самом деле автором документа,</p>
<p><strong>2. Метаданные вложенных объектов</strong></p>
<p>Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты &#8212; это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.</p>
<p>Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию &#8212; это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ &#8212; это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.</p>
<p>Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel &#8212; значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.</p>
<p>Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через &#171;Вставить объект&#187;, то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.</p>
<p>Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ &#8212; сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем  я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.</p>
<p>Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту &#8212; преобразовать в OpenXML, распаковать и заглянуть в папку media.</p>
<p><strong>3. &#171;Маркёры&#187;</strong></p>
<p>Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:</p>
<p>- <strong>обсуждения и комментарии в режим правки</strong>. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.</p>
<p>- <strong>ссылки</strong>. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на <strong>Desktop</strong> или же в папке &#171;<strong>Мои документы</strong>&#171;. Главное что такие ссылки позволяют узнать &#8212; локальное имя пользователя извлекаемой из пути к данному документу.</p>
<p><strong>4. Скрытые данные</strong></p>
<p>Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах.  Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.</p>
<p>В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.</p>
<p>А как собственно получить все эти данные?</p>
<p><strong> Инструменты</strong></p>
<p>Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье <strong>Document Metadata Extraction </strong>в Forensics Wiki -<a href="http://www.forensicswiki.org/wiki/Document_Metadata_Extraction">http://www.forensicswiki.org/wiki/Document_Metadata_Extraction</a> здесь много ссылок на инструменты и библиотеки.</p>
<p>Набор инструментов:</p>
<p>- <strong>MS Office 2007-2010</strong> для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты</p>
<p>- <strong>Strings -</strong><strong> </strong>утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.</p>
<p>- <strong>OffVis</strong> &#8212; это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel &#8212; незаменима. Скачать можно здесь <a href="http://download.techworld.com/3214034/microsoft-offvis-11/">http://download.techworld.com/3214034/microsoft-offvis-11/</a></p>
<p>- <strong>Metadata Extraction Tool</strong> &#8212; бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё  <a href="http://meta-extractor.sourceforge.net/">http://meta-extractor.sourceforge.net/</a></p>
<p>- <strong>Catalogue</strong> &#8212; собирает метаданные из разного типа файлов <a href="http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm">http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm</a></p>
<p><strong>- Metadata Analyzer &#8212; </strong>извлекает метаданные (только базовые)<strong> </strong><a href="http://smartpctools.com/metadata/">http://smartpctools.com/metadata/</a></p>
<p>- <strong>Document Trace Remover</strong> &#8212; убирает метаданные <a href="http://smartpctools.com/trace_remover/">http://smartpctools.com/trace_remover/</a></p>
<p>- <strong>Oracle Outside In </strong>- инструмент для разработчиков, поддерживает около 500 форматов файлов <a href="http://www.oracle.com/us/technologies/embedded/025613.htm">http://www.oracle.com/us/technologies/embedded/025613.htm</a></p>
<p>Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.</p>
<p>Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/12/08/metadata/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Почему Навальный не прав</title>
		<link>http://ivan.begtin.name/2010/10/25/naval/</link>
		<comments>http://ivan.begtin.name/2010/10/25/naval/#comments</comments>
		<pubDate>Mon, 25 Oct 2010 10:16:15 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[госзаказ]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=3535</guid>
		<description><![CDATA[<p>Тут гр-н Навальный вновь пишет про ИТ конкурсы и коррупцию &#8212; <a href="http://navalny.livejournal.com/517479.html?">http://navalny.livejournal.com/517479.html</a>.</p> <p>Как бы так помягче сказать об этом &#8212; ничем хорошим его инициатива не закончится и лично я сильно сомневаюсь в адекватности выбранных им методов и их применению.</p> <p>И не по той причине что коррупции нет и не по той причине что госзаказ [...]]]></description>
			<content:encoded><![CDATA[<p>Тут гр-н Навальный вновь пишет про ИТ конкурсы и коррупцию &#8212; <a href="http://navalny.livejournal.com/517479.html?">http://navalny.livejournal.com/517479.html</a>.</p>
<p>Как бы так помягче сказать об этом &#8212; ничем хорошим его инициатива не закончится и лично я сильно сомневаюсь в адекватности выбранных им методов и их применению.</p>
<p>И не по той причине что коррупции нет и не по той причине что госзаказ &#171;проходит правильно&#187;, а по той что конструктивного в этой деятельности ничего нет.</p>
<p>Потому как:</p>
<p>a. Подавляющее число проблемных закупок связано не с договорённостями между поставщиков и госзаказчиком, а с тем как устроен бюджетный процесс и, в принципе, работа органов власти.</p>
<p>б. ИТ &#8212; это одна из наименее коррупционных отраслей при госзакупках. Там вообще есть хоть какая-то конкуренция, в других отраслях ничего такого нет.</p>
<p>в. Российская система закупок _действительно_ одна из наиболее прозрачных в мире за счёт общедоступности большей части документов процедур &#8212; конкурсной и аукционной документации и протоколов.</p>
<p>Как итог.  При нетаргетированном гражданском воздействии и отсутствии конкретных предложений, куда больше вероятность что будут приняты изменения в 94-ФЗ ограничивающие доступ к информации о торгах только для поставщиков, чем какие-либо иные институциональные изменения.</p>
<p>Так что желающим участвовать в таких инициативах стоит помнить что результат может оказаться отрицательным.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/10/25/naval/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Ещё один блог по открытым данных в формате &#171;журналистов данных&#187;</title>
		<link>http://ivan.begtin.name/2010/10/24/zeit/</link>
		<comments>http://ivan.begtin.name/2010/10/24/zeit/#comments</comments>
		<pubDate>Sun, 24 Oct 2010 14:09:34 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[data.gov.ru]]></category>
		<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[opengovdata.ru]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=3527</guid>
		<description><![CDATA[<p>Немецкое издание Zeit Online открыло блог по открытым данным который можно увидеть здесь &#8212; <a href="http://blog.zeit.de/open-data/">http://blog.zeit.de/open-data/</a></p> <p>По концепции и по форме подачи материалов этот блог практически идентичен Guardian Datablog <a href="http://www.guardian.co.uk/news/datablog">http://www.guardian.co.uk/news/datablog</a>. А то есть все темы создаются вокруг общедоступных машиночитаемых государственных и иных социально значимых данных которые анализируются журналистами, а также предоставляются всем желающим.</p> <p>В [...]]]></description>
			<content:encoded><![CDATA[<p>Немецкое издание Zeit Online открыло блог по открытым данным который можно увидеть здесь &#8212; <a href="http://blog.zeit.de/open-data/">http://blog.zeit.de/open-data/</a></p>
<p>По концепции и по форме подачи материалов этот блог практически идентичен Guardian Datablog <a href="http://www.guardian.co.uk/news/datablog">http://www.guardian.co.uk/news/datablog</a>. А то есть все темы создаются вокруг общедоступных машиночитаемых государственных и иных социально значимых данных которые анализируются журналистами, а также предоставляются всем желающим.</p>
<p>В первом посте &#8212; Die Herren Der Daten (<a href="http://blog.zeit.de/open-data/2010/10/21/die-herren-der-daten/">http://blog.zeit.de/open-data/2010/10/21/die-herren-der-daten/</a>) там пишут про открытые данные в Берлине и проект Apps4Berlin(<a href="http://www.berlin.de/projektzukunft/wettbewerbe/detailseite/datum/2010/09/13/apps4berlin/">http://www.berlin.de/projektzukunft/wettbewerbe/detailseite/datum/2010/09/13/apps4berlin/</a>) организованный администрацией регионов Берлин и Бранденбург.</p>
<p>Во втором посте рассматривается доступность открытых данных о маршрутах транспорта в Германии и близлежащих странах &#8212; <a href="http://blog.zeit.de/open-data/2010/10/22/transiki-ein-weltweites-fahrplansystem/">http://blog.zeit.de/open-data/2010/10/22/transiki-ein-weltweites-fahrplansystem/</a></p>
<p>В любом случае, всячески рекомендую этот блог.</p>
<p>Кстати в России ниша &#171;блогов данных&#187; ещё никем не занята. И те СМИ и просто граждане кто захочет выбрать такой формат имеют все шансы возглавить зарождающийся тренд.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/10/24/zeit/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Техническое: Про NoSQL в ГосСети</title>
		<link>http://ivan.begtin.name/2010/06/11/%d1%82%d0%b5%d1%85%d0%bd%d0%b8%d1%87%d0%b5%d1%81%d0%ba%d0%be%d0%b5-%d0%bf%d1%80%d0%be-nosql-%d0%b2-%d0%b3%d0%be%d1%81%d1%81%d0%b5%d1%82%d0%b8/</link>
		<comments>http://ivan.begtin.name/2010/06/11/%d1%82%d0%b5%d1%85%d0%bd%d0%b8%d1%87%d0%b5%d1%81%d0%ba%d0%be%d0%b5-%d0%bf%d1%80%d0%be-nosql-%d0%b2-%d0%b3%d0%be%d1%81%d1%81%d0%b5%d1%82%d0%b8/#comments</comments>
		<pubDate>Fri, 11 Jun 2010 09:49:21 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[semweb]]></category>
		<category><![CDATA[web]]></category>
		<category><![CDATA[информация]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=2980</guid>
		<description><![CDATA[<p>В сети идёт активное обсуждение нужен ли NoSQL или не нужен рекомендую почитать посты тут &#8212; <a href="http://zabivator.livejournal.com/412053.html">http://zabivator.livejournal.com/412053.html</a> и <a href="http://rainman-rocks.livejournal.com/120682.html">http://rainman-rocks.livejournal.com/120682.html</a>.</p> <p>Ещё один технический нюанс ГосСети (<a href="http://www.govweb.ru">www.govweb.ru</a>) в том что в проекте частично использует NoSQL, а точнее &#8212; базу MongoDB (<a href="http://www.mongodb.org">www.mongodb.org</a>).</p> <p>К примеру, как устроен проект ГосСетью.</p> <p>Есть публичный фронтэнд (<a href="http://www.govweb.ru">www.govweb.ru</a>) в котором [...]]]></description>
			<content:encoded><![CDATA[<p>В сети идёт активное обсуждение нужен ли NoSQL или не нужен рекомендую почитать посты тут &#8212; <a href="http://zabivator.livejournal.com/412053.html">http://zabivator.livejournal.com/412053.html</a> и <a href="http://rainman-rocks.livejournal.com/120682.html">http://rainman-rocks.livejournal.com/120682.html</a>.</p>
<p>Ещё один технический нюанс ГосСети (<a href="http://www.govweb.ru">www.govweb.ru</a>) в том что в проекте частично использует NoSQL, а точнее &#8212; базу MongoDB (<a href="http://www.mongodb.org">www.mongodb.org</a>).</p>
<p>К примеру, как устроен проект ГосСетью.</p>
<p>Есть публичный фронтэнд (<a href="http://www.govweb.ru">www.govweb.ru</a>) в котором публикуется информация о сайтах. Сам проект живёт на Django + MySQL. Это позволяет вести разработку предельно быстро и удобно, но и имеет ряд ограничений, например, в том что в подобной схеме неудобно хранить данные не имеющие четкой структуризации.</p>
<p>Поэтому были самые разные идеи &#8212; от использования Semantic MediaWiki, до адаптации или разработки движка аналогичного FreeBase (но это оказалось слишком дорогой задачей).  А Semantic MediaWiki хоть и выглядит соблазнительно, но вплане импорта/экспорта информации с ним нужно немало разбираться.</p>
<p>Однако вернёмся к NoSQL. Кроме, фронтэнда, отдельно от проектов и уже давно существует бэк-офисный непубличный движок и сервис который выдаёт для ГосСети следующие API методы:</p>
<ul>
<li>извлечение данных из веб-страниц и сайтов: изображений, ссылок, объектов, метаданных и так далее</li>
<li>извлечение признаков из веб-страниц: определение CMS, технологий, счетчиков и так далее</li>
<li>получение, парсинг и классификация данных WHOIS</li>
<li>валидацию через W3C Validator</li>
<li>извлечение метаданных из веб-страниц</li>
<li>поиск RSS лент (для случаев когда RSS ленты не указываются в тэгах LINK)</li>
</ul>
<p>и ещё несколько полезных инструментов.</p>
<p>Это такой SWISS Knife, но построенный на общем хранилище и на общих принципах. И хранилище это работает на том самом MongoDB. Почему именно так?</p>
<p>Причины в самом деле просты:</p>
<p><strong>1. Удобство хранения</strong></p>
<p><strong> </strong></p>
<p><strong></p>
<div id="_mcePaste"><span style="font-weight: normal;">Практически все случаи когда из веб-страниц необходимо извлекать много разнородной информации приводят к тому что есть выбор. Либо сильно упрощать структуры, либо создавать множество таблиц по которым эти структуры распихивать.</span></div>
<div></div>
<div><span style="font-weight: normal;">Пример, из веб-страницы извлекаются: изображения, скрипты, метаданные, ссылки, формы. Для каждого из этих типов данных есть своё описание структур которые могут существенно отличаться. А в случае, например, форм &#8212; у них есть ещё и вложенные структуры в виде элементов форм которые, по хорошему, тоже надо хранить.</span></div>
<div></div>
<div><span style="font-weight: normal;">В случае если разносить все данные по отдельным таблицам, то, во-первых их наберётся не один десяток, а во вторых строить сложные запросы по таким таблицам означает заранее закладываться на планировщик СУБД.</span></div>
<div></div>
<div><span style="font-weight: normal;">Это как раз решается на уровне документо-ориентированных баз данных вроде MongoDB и CouchDB. </span></div>
<div></div>
<div>2. Легкость изменений структур</div>
<div></div>
<div><span style="font-weight: normal;">Второй плюс NoSQL в том что структуры данных легко меняются даже в тех случаях когда данных накоплено уже очень большое количество. Приведу конкретный пример. Прежде чем появился описанный мною выше сервис &#8212; где-то с полгода назад у меня работал небольшой краулер робот который собирал данные по Рунету и основным используемым в нём технологиям с сайтов. Всего в базе было и есть около сотни тысяч описаний сайтов.  Это миллионы скриптов, ссылок, метаданных и т.д.  и чтобы понять какие носители признаков пригодны для классификации, а какие нет необходимо многократно анализировать и менять структуры. Так вот делать это с использованием NoSQL гораздо проще.</span></div>
<p></strong></p>
<p><strong>3. Map/Reduce</strong></p>
<p>Собственно, не упомянутое авторами &#8212; это Map/Reduce. Это одна из наиболее интересных, полезных и, в некотором смысле, удобных фишек многих NoSQL движков.</p>
<p>Я могу посоветовать почитать про Map/Reduce в Википедии <a href="http://en.wikipedia.org/wiki/MapReduce">http://en.wikipedia.org/wiki/MapReduce</a> и добавлю что нужно это далеко не всем, а только тем кто работает со сравнительно большим объёмом данных.</p>
<p>Лично я использую Map/Reduce в MongoDB уже давно, просто-напросто мало времени чтобы писать о технологиях.</p>
<p><strong>4.  SQL != фундамент разработки</strong></p>
<p>Это вообще какое-то распространённое заблуждение что _способ работы с данными_ является неотъемлимой частью процесса разработки. Я могу лишь сказать, что у тех кто так действительно думает, по всей видимости, мало опыта в использовании других технологий. Например, такие движки как Metakit, BerkeleyDB, а также объектные и XML базы данных вполне себе давно существуют и активно используются. Я знаю несколько весьма серьёзных продуктов полностью построенных на BerkeleyDB.</p>
<p>&#8212;</p>
<p>Добавлю лишь что NoSQL совершенно определённо годится не для всех видов систем, продуктов и задач. Но вот то что сама идеология вызывает столь активные обсуждения и в российской блогосфере и в мировой &#8212; это плюс, а не минус подхода.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/06/11/%d1%82%d0%b5%d1%85%d0%bd%d0%b8%d1%87%d0%b5%d1%81%d0%ba%d0%be%d0%b5-%d0%bf%d1%80%d0%be-nosql-%d0%b2-%d0%b3%d0%be%d1%81%d1%81%d0%b5%d1%82%d0%b8/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Cnews про ТК22 Ростехрегулирования</title>
		<link>http://ivan.begtin.name/2010/05/21/cnews-%d0%bf%d1%80%d0%be-%d1%82%d0%ba22-%d1%80%d0%be%d1%81%d1%82%d0%b5%d1%85%d1%80%d0%b5%d0%b3%d1%83%d0%bb%d0%b8%d1%80%d0%be%d0%b2%d0%b0%d0%bd%d0%b8%d1%8f/</link>
		<comments>http://ivan.begtin.name/2010/05/21/cnews-%d0%bf%d1%80%d0%be-%d1%82%d0%ba22-%d1%80%d0%be%d1%81%d1%82%d0%b5%d1%85%d1%80%d0%b5%d0%b3%d1%83%d0%bb%d0%b8%d1%80%d0%be%d0%b2%d0%b0%d0%bd%d0%b8%d1%8f/#comments</comments>
		<pubDate>Fri, 21 May 2010 08:29:27 +0000</pubDate>
		<dc:creator>ivbeg</dc:creator>
				<category><![CDATA[e-Government]]></category>
		<category><![CDATA[eGov]]></category>
		<category><![CDATA[информация]]></category>
		<category><![CDATA[электронное государство]]></category>

		<guid isPermaLink="false">http://ivan.begtin.name/?p=2892</guid>
		<description><![CDATA[<p>В Cnews вышла статья про ТК22 &#8212; <a href="http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272">http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272</a></p> <p>в том числе и с моими комментариями.</p> <p>Я кстати, склонен согласится тут с Ольгой Усковой &#8212; вероятность что стандарты разработанные в ТК22 будут использоваться в требованиях по госзакупкам совсем ненулевая. В этом случае интерес Майкрософт вполне себе понятен &#8212; они могут продвигать там OpenXML и OData, [...]]]></description>
			<content:encoded><![CDATA[<p>В Cnews вышла статья про ТК22 &#8212; <a href="http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272">http://www.cnews.ru/news/top/index.shtml?2010/05/21/392272</a></p>
<p>в том числе и с моими комментариями.</p>
<p>Я кстати, склонен согласится тут с Ольгой Усковой &#8212; вероятность что стандарты разработанные в ТК22 будут использоваться в требованиях по госзакупкам совсем ненулевая. В этом случае интерес Майкрософт вполне себе понятен &#8212; они могут продвигать там OpenXML и OData, да и другие свои стандарты.</p>
<p>И логика тут вполне понятная, вендоры лоббируют свои стандарты делятся собственным опытом и проводят формализуют свои наработки в которых у их продуктов есть преимущество.</p>
<p>Далее начинается нормативно-правовое закрепление стандартов в виде требований в конкурсной документации.</p>
<p>На федеральном уровне через постановления правительства, но к тому что на федеральном уровне делается внимания гораздо больше поэтому я больше склонен полагать что логичнее будет когда использование стандартов будет закрепляться на уровне субъектов федерации также постановлениями губернаторов/глав администрации.</p>
<p>И, конечно, индивидуально эти стандарты могут упоминаться в конкурсной документации даже без нормативно-правового закрепления.</p>
]]></content:encoded>
			<wfw:commentRss>http://ivan.begtin.name/2010/05/21/cnews-%d0%bf%d1%80%d0%be-%d1%82%d0%ba22-%d1%80%d0%be%d1%81%d1%82%d0%b5%d1%85%d1%80%d0%b5%d0%b3%d1%83%d0%bb%d0%b8%d1%80%d0%be%d0%b2%d0%b0%d0%bd%d0%b8%d1%8f/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

