Открылся интересный сайт – www.openei.org платформа для раскрытия открытой информации в области электроэнергетики.
Сам сайт сделан на MediaWiki, но видно что сильно доработан и с самого начала заявляется цель интеграции данных по энергетике в Linked Data
Заодно стоит взглянуть и на VIBE Virtual Information Bridge to Energy Efficiency and Renewable Energy. Это большая база данных по энергетике с графиками, таблицами, ссылками на официальные отчеты и прочими возможностями.
Вот эту новость (VietNamNet – Vietnam to widely use open source software) о том что во Вьетнаме начался активный переход на OpenSource среди госслужащих сейчас активно цитируют и тиражируют. Вот только тут важно понимать что это желание использовать open source во Вьетнаме появилось не из воздуха, а в результате следующих обстоятельств:
1. Уровень пиратского использования ПО во Вьетнаме около 90%.
2. Microsoft и другие производители ПО поддерживают локализацию на вьетнамский язык по остаточному принципу. При том что носителей языка более 86 миллионов, что, например, в разы больше чем носителей шведского на который локализуют повсеместно.
3. Растущее число open source приложений и локализаций на вьетнамском языке при сравнительно небольшом числе коммерческих приложений с локализацией.
Также можно почитать заметку годовалой давности про использовение open source во Вьетнаме – Ministry encourages open source software
Как бы то ни было, ситуация с open source во Вьетнаме от российской отличается, хотя бы иным уровнем «корпоративного лобби».
И интересные рассуждения Matt Asay о open source в России.
В эти выходные мне сравнительно немного удалось поработать за компьютером, была уйма других дел, а вот краулеры и нагрузочные тесты на CouchDb как раз смогли отработать полностью.
За пару дней на мой небольшой домашний сервер удалось собрать информацию по доменам в зоне SU, корневые страницы, данные whois и так далее и теперь могу говорить о CouchDb с большей однозначностью.
Основное, пожалуй, то что движок позволяет делать очень быстрые запросы на добавление и получение отдельных документов по ключу. Для систем со стратегией работы с данными по CRD (Create, Read, Delete) движок весьма удобен, например, у него есть хороший потенциал в качестве использования как хранилища логов. А вот для CRUD в классическом понимании будут свои особенности, в частности то как CouchDb работает с версиями будет отрицательно сказываться на объёмах хранимых данных.
Continue reading «Техническое: CouchDB и его применимость»
По сети бродит ссылка НАТО (NATO) выбрали ODF как один из форматов передачи документов. Причём похоже упоминается что возможное влияние на решение оказал голландский министр обороны, поскольку в голландии Open Source особенно распространён.
Интереснее будет ситуация если ODF включат и в EIF (European Interoperability Framework) учитывая особую любовь Еврокомиссии к Майкрософт, такое развитие событий будет неудивительно.
В предыдущих двух частях: часть 1 и часть 2 я описывал информационные потоки в общем случае, а также некоторые их метрики. В этой части я заторону подробнее такое понятие как информационный массив, конечно, в контексте информационных потоков.
Информационный массив (information dataset) – это совокупность однородных или связанных объектов включая их связи и структуру отношений, не обладающих временными метками или же в когда временные метки не являются ключевым критерием их рассмотрения и анализа. В качестве информационных массивов можно рассмотривать любую энциклопедию, справочник, коллекции статей «How-To». При этом массивы, как и потоки, можно рассматривать как простые (однородные) так и сложные.
Например, рассмотрим такой массив данных как телефонный справочник городов. У него простая структура: код, город; и, несмотря на то что можно фиксировать ещё и дату внесения кода в справочник, конечному потребителю этой информации дата будет ненужна в подавляющем большинстве случаев. Максимум она может подтвердить актуальность справочника, но вероятность того что кто-то, к примеру, будет подписываться на RSS изменений этого справочника стремиться к нулю, так как это массив информации, а не поток и его потребление основывается на принципах точности, поиска и сопоставления информации, но не на ежедневном потреблении новых данных. В то же время, рассматривая записи в этом справочнике с точки зрения модели информационных потоков мы можем определить в нём дополнительную дату – дату обновления записи и определить максимальное число информационных потоков. Continue reading «Мир как поток и совокупность информации. Часть 3.»
Читая материалы по document-based и column-based базам данных наткнулся на довольно интересный проект Thrudbeng. Что его выделяет является надстройкой между условно-любым хранилищем, в частности над Amazon S3, а также что Thrudb может быть развёрнут на Amazon EC2.
А вот и статья где о Thrudb рассказывается в деталяхeng и, в принципе, задумка представляется более чем конкурентной с CouchDb или HBase.
В принципе, я начинаю понимать почему подобные проекты всё более привлекают внимание. В условиях простоты горизонтального маштабирования (Amazon EC2, к примеру) потребность в идеальной оптимизации классических реляционных баз данных сходит на нет, а гибкие и маштабируемые решения оказываются к месту.
Готов биться об заклад что не пройдёт и двух лет как:
1. Появятся сервисы Database-on-Demand основанные на Amazon EC2 или аналогах и использующие Thrudb, CouchDb или один из аналогов.
2. Появятся первые коммерческие продукты использующие или совместимые с column-based базами данных (ряд сайтов уже существует) причём одним из пионеров будет IBM.
3. Протокол Thrift станет стандартом де-факто, а потом и пройдёт стандартизацию, скорее всего W3C.
4. Большинство вендоров баз данных поддержат Thrift и JAQL или начнут проявлять интерес к этим стандартам.
5. Одна из подобных баз данных ляжет в основу ВикиПедии или аналгогичного ей проекта вроде FreeBase.
Интересное 25-страничное исследование-сравнение платформ Ruby-on-Rails и Django. Что хорошо так то что автор разобрал и сравнил особенности фреймворков весьма детально и каждой выставленной оценке привёл обоснование.
При том что я считаю что у Django долгорочные переспективы лучше, с автором соглашусь Ruby-on-Rails чуть его опережает. Для компаний и команд разработчиков которые ещё не определились какую из платформ использовать, почитать документ может оказаться полезным.
Недавно по наводке нашёл презентацию SUN по предстоящему OpenOffice 3.0 который появится весной-летом 2008 и обнаружил массу интересного.
Интересного много, но более всего меня заинтересовало следующее:
- PIM
- Клиент к календарю на базе Thunderbird
- Импорт и экспорт PDF
- Импорт Microsoft Office XML 2007
Что касается PIM’а и клиента к календарю то об этом давно говорили, это вполне ожидаемые обновления. А вот импорт PDF это воистину что-то новое. В своё время помнится Adobe активно возмущались включением экспорта в PDF в MS Office 2007, но одно дело экспорт, а тут ещё и импорт. То есть необходимость в Adobe Acrobat’е у очень многих пользователей может отпасть. В то же время «наехать» на OpenOffice в данном случае Adobe не могут, так как патенты не нарушаются, а сам консорциум OpenOffice не монополист на рынке. В любом случае функциональность более чем полезная, мне нехватало.
Ну и наконец-то в OpenOffice решили добавить поддержку OOXML на нативном уровне. В общем-то также ожидалось. Экспорт, конечно, делать небудут, а импорт пожалуйста.
Буду использовать.
Читаю подробности про новость того что Sun приобрели MySQL. Практически все западные ИТ блоггеры и аналитики сходятся во мнении что это был очень верный ход. Учитывая что Sun уже много лет проводит политику раскрытия своего исходного кода и тесной работы с opensource сообществом, то и тем более.
Приведу наиболее интересные западные публикации блоггеров:
Если же вернуться в Россию, то мне часто приходилось сталкиваться с тем что и государственные ,и коммерческие заказчики, о таких базах как MySQL или PostgreSQL знают и были бы рады их использовать, но не делают этого задавая резонный вопрос о коммерческой поддержке и кто же будет отвечать если что-то не будет работать. А вот лейбл Sun известен очень многим и я не удивлюсь началу экспансии MySQL на корпоративный рынок, для начала с помощью других продуктов Sun, вроде Portal и так далее.