Апр 30 2009

Законодательное

МинОбразования выпустили приказ по который, в частности, регулирует порядок представления информации о приёме студентов в ВУЗы. Просто интересно – число набранных студентом баллов – это персональная информация или нет? 

—-

29 апреля Совет Федерации одобрил закон «Об организации проведения встречи глав государств и правительств стран – участников форума «Азиатско-тихоокеанское экономическое сотрудничество» в 2012 году, о развитии города Владивостока как центра международного сотрудничества в Азиатско-Тихоокеанском регионе и о внесении изменений в отдельные законодательные акты Российской Федерации»  за формулировкой «о внесении изменений в отдельные законодательные акты» скрывается немного-немало, а полная реформа проведения аукционов в электронной форме. 

Открытые данные

В OpenGovData.ru уже перечислено более 244 источников данных и 37 документов в банке документов. Напомню что это негосударственный и некоммерческий проект, а также добавлю что он не политический. 

—-

На правохранительном портале есть интересный сервис по в виде статистики преступлений и, в то же время, предельно закрытый сервис проверки ЧОП - лично я впервые вижу чтобы информацию закрывали именно таким образом, одновременно каптчой, отправкой результатов только на email и поиску по части названия. 

—-

Google начали показывать графики по открытым статистическим данным в США (http://googleblog.blogspot.com/2009/04/adding-search-power-to-public-data.html) интересная идея которую Яндексу по России реализовать будет сложнее ибо открытых и качественных статистических данных просто нет. Пока нет.

—-

Технологическое

Енот Поискун удалось ускорить в несколько раз (примерно в 5 раз) за счёт целого ряда трюков по оптимизации загрузки веб страниц и интеллектуализации кеширования динамических и статических данных.  Вообще же процесс оптимизации приводит меня к мысли о применимости принципов анализа интенсивности и структуры потоков информации для оптимизации форм их представления и кеширования данных. Переводя на русский язык – можно построить модель обучаемого и самообучающегося кэш сервера адаптируемого к имеющимся данным и с использованием предупредительного кеширования.

Вышел Hadoop 0.20 изменений относительно немного – лично для меня вопрос до сих пор открытый что использовать Hadoop или Hypertable. Благо задачи под такие инструменты есть.

Другой инструмент – CouchDb моих надежд не оправдал. Возможно он ещё сильно улучшится, но пока всё больше ощущение что пользы от него не очень много.

Memcached чрезвычайно удобный инструмент не только для веб’а, но и для массы других задач сопряжённых с кешированием данных. Чем далее тем более в этом убеждаюсь.


Апр 27 2009

OpenGovData.ru – Банк документов и сообщества

Tag: из жизниivbeg @ 9:58 дп

Спасибо всем откликнувшимcя на предыдущие темы по OpenGovData.ru – я вижу что энтузиасты в стране есть, что не может не радовать. 

По проекту есть два анонса.

Первое - Для того чтобы обсуждения можно было вести ещё более открыто – появилось сообщество в Google Groups - http://groups.google.com/group/opengovdataru где я, в дальнейшем, буду в основном публиковать анонсы и информацию о развитии проекта и приглашаю всех принять участие в обсуждениях. 

Второе – появился банк документов (http://opengovdata.ru/laws/) где вместо присутствовавшего ранее закона 8-ФЗ, сейчас собранов 29 документов посвящённых темам раскрытия информации, персональным данных и государственным и муниципальным программам по информатизации. Много документов имеющих статус приказов федеральных министерств и законов регионов. 

Практический все документы сейчас в формате PDF (кроме плана Мининформсвязи по Электронной России- он в формате TIFF). Соответственно все документы открытые и публично доступные, но ранее разбросанные по сети.

Список документов можно фильтровать в нескольких разрезах и подписаться на появление новых документов посредством RSS - http://opengovdata.ru/laws/rss/ . Банк данных, внешне ещё будет меняться – появится возможность просмотра схожих документов и больше возможностей для поиска, но надо с чего- то начинать.

И если Вы знаете документы посвящённые раскрытия информации, положений об официальных сайтах и так далее находящихся в открытом доступе – присылайте на них ссылки или закидывайте их в сообщество и они обязательно попадут в общий банк данных.


Апр 24 2009

OpenGovData.ru: Основные принципы организации данных и развития

Tag: из жизниivbeg @ 11:38 дп

Продолжая тему OpenGovData.ru  - я продолжу несколько неформальное представление проекта и того как предполагается наполнять его данными и поддерживать.

Я постараюсь уделить больше внимания именно тому как и что будет происходить в развитии и ответить на ряд уже звучавших вопросов.

1. Долгосрочные цели – RDF/OWL/LinkedData

Долгосрочные цели проекта:

   – это перевод собираемых данных в формат пригодный к машинной обработке и навигации фактически -построение Россиийского сегмента Linked Data в части общедоступной государственной информации.

   – подготовку спецификаций и рекомендаций по законодательному закреплению раскрытия данных в машиночитаемых форматах;

   – информационное освещение вопросов раскрытия данных государством;

2. Движение малыми итерациями

Ответ на вопрос почему же не сразу RDF?

    Достичь всеобщей RDFизации и структурированности в один прыжок – это практически невозможно. Невозможно и по той причине что прежде чем придать данным подобную форму их надо в принципе получить.  Проект будет двигаться малыми итерациями – будут собраны источники информации, будут определены их основные типы и ответственные организации, будет преобразование информации в промежуточные форматы на основе которых далее массивы данных будут сводится к единым спецификациям.

3. Сбор источников и классификация источников

Это то то происходит сейчас пока идёт наполнение разделе с перечнем источников данных http://opengovdata.ru/sources/ . Это начальная и важная часть работы поскольку на сегодняшний день работа с публичными данными крайне бессистемна. Она бессистемна даже на уровне отдельных ведомств не говоря уже о государственных органах вцелом.

Помимо сбора источников информации будет происходить и их классификация, как то частота обновления, есть ли обновления в принципе (статический ли источник) и другая классификационная информация.

4. Разнородность информации – постепенное преодоление

Информация представляемая государственными органами да и вообще кем бы то ни было крайне разнородна. При том что в подавляющем числе случаев мы имеем дело с простыми табличными данными, тем не менее иногда присутствуют и сложные структуры – например данные о госзакупках или о строительстве. 

Также имеются свои особенности у данных уже доступных в структурированной форме, данных огромного объема, данных содержащих бинарные образы и так далее.

Continue reading «OpenGovData.ru: Основные принципы организации данных и развития»


Апр 21 2009

OpenGovData.ru – ранний анонс

Дорога в тысячу ли начинается с одного шага.

Запустился в самой первой (альфа-редакции) сайт OpenGovData.ru  Те  кто читал мои размышления по data.gov.ru могут найти там самое начало старта подобного проекта на некоммерческой основе.

Что такое OpenGovData.ru? В первую очередь – это некоммеческий ресурс где сейчас собирается информация по всем общедоступных массивам данных, реестрам, перечням и статистической информации раскрываемой государственными органами и подведомственными ими организациями.

Сейчас основная тема сайта – это систематизация открытой информации предоставляемой государственными органами власти включая последующее раскрытие общедоступной информации в машиночитаемой форме.

Особенность раскрытия данных именно в России в том что качественных данных очень мало. Подавляющее число реестров, перечней и так далее раскрывается в форме непригодной к машинной обработке кроме как специальными средствами – разработанными парсерами.

Этапы сбора и систематизации открытой информации

Сейчас первый и предварительный этап проекта в течении которого происходит сбор информации о публично доступных массивах данных уже раскрываемых в сети. В базе проекта уже содержится информация о 186 различных источников федеральных органов власти, администраций субъектов Российской Федерации и администраций муниципальных образований. 

Информация об источнике информации включает следующие данные:

  • название;
  • описание и комментарии;
  • ссылку на подробности описания;
  • ссылку на постоянное местонахождение;
  • форматы;
  • тип источника (API / Массив данных / Каталог ссылок);
  • Язык;
  • Ответственная организация;
  • Копирайт/Условия использования;
  • Даты внесения и последнего обновления;
  • Тэги

 Плюс этот реестр будет активно пополняться – сейчас есть ещё около 130 источников ожидающих верификации и систематизации.Плюс, например, пока ещё нет ссылок на статистику раскрываемую Росстатом, а только там несколько десятков если не сотен таблиц.

Следующий второй этап начнётся с середины/конца мая 2009 года – в разделе открытые данные  будут появляться первые обработанные срезы в форматах TSV (Tab-Separated Values), XML, JSON и, возможно, YAML плюс спецификации данных.  Также продолжится сбор открытых источников информации в общий реестр. 

Некоторые данные у меня уже практически готовы для публикации, сейчас идёт их преобразование в разные форматы.

На третьем этапе данные прошедшие структуризацию будут проходить систематизацию и последующее преобразование в RDF плюс подключение к Linked Data. Точные сроки начала этого этапа сейчас назвать сложно, предположительно середина 2010 года

О других темах

Хотя сейчас на сайте основной акцент на машиночитаемых открытых данных, это не единственная тема которую предполагается там охватить. 

Конечный список предполагаемых тем:

  • публичные и открытые критерии оценки открытости и результаты мониторинга открытости государственных сайтов ;
  • юзабилити/удобство работы с государственными сайтами;
  • работа с персональными данными;
  • законодательство о раскрытии данных;

Каждая из тем велика сама по себе и я предполагаю каждую из них как отдельным подпроектом в opengov.ru в виде поддоменов или отдельных разделов сайта. Точные сроки их появления сейчас я привести не могу, но до конца этого года будет запущен хотя бы один из подразделов.  Если есть жела

Статус проекта

OpenGovData.ru – это некоммерческий и негосударственный проект.

Это означает что:

1.  На нём не будет рекламы.

2. Все размещаемые материлы кроме отмеченных отдельно будут доступны под Creative Commons Attribution 3.0 License.

3.  На нём не будет коммерческих сервисов.

Сейчас я начинаю его как частную инициативу и, если будут желающие/энтузиасты поучаствовать – приглашаю. 

Социальность

Пока в OpenGovData.ru нет возможностей для «социализации» как-то комментарии или а-ля соц. сеть и я лично сомневаюсь что они там нужны, но некая среда общения нужна будет. Это сейчас открытый вопрос и предложения приветствуются. 

Как можно помочь проекту

1. Самый простой способ – замечаниями и предложениями.

2. Просмотрев список источников данных и присылая мне новые на ibegtin@gmail.com, вскоре появится форма отправки на сайте.

3. Материально не сейчас, но когда будут появлятся открытые данные, начнётся их активная выгрузка и трафик начнёт съедать деньги.

4. Информационно – упоминая в принципе о появлении проекта и привлекая энтузиастов.



Апр 17 2009

Будет книга по АнтиСЕО

Tag: алгоритмы, книгиivbeg @ 11:40 дп

Пособирав в последнее время  все имеющиеся материалы прихожу к выводу что на пару книг у меня их хватит. А если писать активно, а не как сейчас – 2-3 страницы в день, то и на большее число. 

Тем, в принципе много, но конкретно сейчас есть желание завершить книгу которую я начал ещё в середине 2008 года по тематике АнтиСЕО – название будет несколько отличаться, но смысл именно таков. 

Основные способы и последствия продвижения сайтов с точки зрения выявления SEO активностей и платных/SEO ссылок поисковыми системами. 

Что в книге будет:

  • информация необходимая для обнаружения платных ссылок;
  • более 50 правила обнаружения;
  • не менее одного примера по каждому правилу;

Чего в книге не будет:

  • в книге не будет формул;
  • описаний алгоритмов, кроме самых общих;
  • технические аспекты будут затронуты лишь самым общим образом.

Главная особенность книги в том что сам я лично не отношусь ни к SEO сообществу, ни к компаниям разработчикам поисковых машин. В противном случае в мне было писать её невыгодно или невозможно в виду NDA. 

Сама же книжка будет результатом проведённой мною серии экспериментов в 2008 году и то что я ранее публиковал, например, в Выявление ссылочного спама на основе анализа гиперссылок и предварительной классификации веб ресурсов. Но если в прошлых публикациях я как раз правила вообще не описывал, тот тут всё будет посвящено именно им – прямым и косвенным признакам обнаружения платных ссылок. 

Пока есть 20 страниц текста, но будет больше, сейчас собираю материалы для компиляции.

Зачем эта книга нужна лично мне? Большая часть использованных и определённых мной правил требует довольно много технологических усилий для реализации и имеют лишь ограниченное применение. 

Примерное содержания (не окончательное):

1. Вступление.

2. Введение

2.1. Зачем это нужно?

2.2. Мотивация участников рынка

2.3. Текущая ситуация

3. Основные определения

4. Необходимая информация для анализа

5. Правила анализа ссылок

5.1. Инструкции поисковым роботам

5.2. Происхождение и направление ссылки

5.3. Анализ структуры веб-страницы

5.4. Анализ текста ссылки и страницы

5.5. Анализ меток отношений и структуры веб сайтов

6. Технологии и практика

—-

Соответственно вопросы:

1. Интересна ли тема?

2. Знает ли кто-нибудь издательство которому было бы интересно такую книгу опубликовать?

3. Какие темы из перечисленных в содержании интересуют более всего?


Апр 14 2009

Отдам Социоранк в хорошие руки

Tag: размышления, социоранкivbeg @ 10:29 дп

Из размышлений над тем что делать с накопившимися у меня наработками – медленно, но верно выпал Социоранк - сервис тематического рейтингования пользователей в соц. сетях. На данный момент пользователей ЖЖ. 

Как я ни рассматривал куда его можно пристроить к другим своим проектам – получается что он выпадает из всех тем которыми я сейчас занимаюсь и развивать его будет означать жертвовать чем-либо ещё.

Поэтому рассматриваю вариант небезвозмездной передачи проекта тому кто может и хочет его развивать и дорабатывать.

Что в проект входит:

  • домен sociorank.ru;
  • веб интерфейс и база рассчитанных рейтингов;
  • подсистема/модуль сбора и обработки информации о рейтингах, расчётов рейтингов, расчёты кластеров сообществ и влиятия сообществ друг на друга;
  • если нужны – соображения по дальнейшему развитию проекта.

Если есть интерес – пишите на ibegtin@gmail.com – сколько готовы за него отдать и чего собираетесь с ним делать.

Соответственно, сам я от темы рейтингования в социальных сетях отдаляюсь ибо есть более интересные проекты.

UPD: Некоторые подробности

Проект полностью написан на Django/MySQL и состоит из двух модулей/подсистем. 

Отдельно идёт подсистема веб-сайта которая отдаёт веб страницы и предоставляет API.

Отдельно подсистема которая собирает данные о ЖЖ пользователях, рассчитывает рейтинги и другие метрики и загружает их через API на веб портал. 

Веб интерфейс полностью переносим, а сбора данных для некоторых задач используется внешние инструменты/библиотеки в Linux, но принципиально непереносимого там ничего нет.


Апр 14 2009

Новое в Скиуре

Tag: скиурivbeg @ 10:01 дп

Проект продолжает развиваться и недавно обновился сразу в нескольких областях:

Внешние изменения

  • появился букмарклет для запуска распознавания новостей через браузер – его можно перетащить на панель закладок по перейдя по ссылке - http://www.skyur.ru/tools/
  • появился каталог ранее распознанных RSS лент - http://www.skyur.ru/catalog/ 
  • у проекта появилось API для проверки можно ли страницу/сайта преобразовать в RSS. Само API пока закрыто, но для тех кому интресно – пример его работы можно посмотреть в каталоге ссылок http://enotpoiskun.ru/links/  где каждая ссылка была проверена на предмет наличия RSS и, при наличии, добавлено ссылкой на соответствующую страницу в Скиуре. Вскоре будет и публичное API

Внутренние изменения

  • проект прошёл серьёзную внутреннюю переработку и, если ранее использовался, движок баз данных Couchdb, то теперь все основные данные хранятся в MySQL, а Couchdb используется как вспомогательный инструмент. Соответственно это повысило скорость обработки RSS лент примерно на 20% и улучшило стабильность сервиса как такового.
  • значительно улучшилось распознавание кодировок и теперь в во многих случаях когда ранее алгоритм не срабатывал – это должно исправится.
  • добавлена поддержка дат в формате «d.m», а то есть день и месяц. При этом автоматически подставляется текущий год.

Принимаются предложения и пожелания по дальнейшему развитию проекта. Также, если к примеру, у вас есть свой каталог ссылок и Вам бы хотелось дополнить его информацией о RSS лентах созданных Скиуром, то можно связаться со мной по ibegtin@gmail.com и договорится о бесплатном использовании API с оговоркой что оно ещё будет менятся и дорабатываться.


Апр 14 2009

Ссылки на 13.04.2009

Интересное в сети

 

e-Gov

  • Toiletmap – Про австралийскую карту туалетов пишет Екатерина Аксенова в gov-gov.ru. Тема может показаться забавной, но австралийцы очень даже серьёзны поскольку проект создавался как дополнение другому их проекту «Кишки и мочевой пузырь» (Bladderbowel) посвящённому людям страдающих от расстройства данных органов. 
  • Премьер-министр Австралии и лидер оппозиции оба активно используют Twitter.
  • eGovShare – исследования и предложения по организации находимости (обнаружения) государственных ресурсов в сети. Discovery of e-gov resources
  • eGovernment Register – государственный реестр поставщиков, тендеров и продуктов программного и аппаратного обеспечения в Великобритании. Сайт увешан RSS, социальными закладками, вся информация доступна публично, есть разделы посвящённые интеграции продуктов. Очень серьёзные и систематизированный подход.

Апр 13 2009

Материалы проверки не являются информацией (c)

Любопытная статья на сайте РекламаМама «ФУ на ваши деньги!», но более всего там любопытен приведённый документ их переписки с госорганами.

… Ответ достоин того, чтобы привести его здесь полностью (см. иллюстрацию). «В соответствии со ст. 39 закона «О средствах массовой информации», редакция имеет право запрашивать информацию о деятельности государственных органов и организаций, их должностных лиц. Запра­шиваемые материалы проверки не являются информацией». …

Лично меня настораживает мятая бумага отсканированного документа и отсутствие на ней подписи, с другой стороны сама формулировка «материалы проверки не являются информацией» крышесносна. А что будет когда вступит в силу 8-ФЗ, там же чиновники будут вынуждены отвечать не только на запросы журналистов, но и граждан.


Апр 13 2009

Госсайты, счетчики и иностранные сервисы

Когда чиновники говорят о принадлежности баз пользователей социальных сетей или систем коротких сообщений зарубежным компаниям, то важно не забывать что эта информация хоть и важная, но и не самая ключевая.

Поставим вопрос шире, а как создаётся и распространяется информация о пользователях в сети, с их ли согласия или без, какую информацию можно подтянуть по «длинному следу»?

Можно быть уверенными что очень немалую. Те же счетчики Google Analytics, Liveinternet, Mail.ru, Rambler.ru и метрика Яндекса позволяют отслеживать активность пользователей, а также по информации о ним в своих соц. сетях и профилях знать о его шаблонах поведения.

Но дело не только в этом, дело ещё и в том в каком виде и сколь долго эту информацию счетчики хранят и как используются. К примеру, даже если на государственном сайте  может быть раздел посвящённый правилам использования информации о пользователе в как логов с указанием сроков хранения, то если используется внешний сервис, то ничего такого нет и в помине. Госсайты повсеместно увешаны счетчиками самого разного толка, точно также они оставляют постоянные куки или используют внешние сервисы которые это делают. 

И в этом плане мы серьёзно отстаём от тех же США в части регулирования приватности – если у них выкладывание на сайте Белого дома видео с Youtube привело к иску со стороны активистов по борьбе за приватность которые указали на меморандум M-03-22 о запрете использоания persitent cookie и, в итоге, добились снятие Youtube с сайта Белого дома, а Google анонсировали сервис delayed cookie.

Но это в США, а у нас на сайте единого окна города Москвы, даже в, условно закрытом, HTTPS разделе висят счётчики Google Analytics и Spylog. Хорошо ещё если сайт организован таким образом что в GET запросах не передаётся приватная информация, но если это всё таки происходит, а у лично у меня уверености такой нет, то это необходимо проверять и тщательно. А то что Google что Spylog могут иметь доступ к персональной информации и о гражданах – вопрос достаточно серьёзный, не единичный и никак не проработанный.

Лично моё мнение прежнее – во всём что делает государство в Рунете, коррупции гораздо меньше чем бессистемности.


Следующая страница »


Rambler's Top100