Июн 29 2008

Целостность формы представления информации

Я упоминал об этом ранее в в различных записях по системам госзакупок, но по дальнейшему наблюдению приходится отметить что проблема глубже какой-либо конкретной области.

Что такое целостность формы?

Целостность формы – это когда рассматриваемая единица информации (по английски называемые datum, по русски я использую понятие информационный объект), может быть предствлена в форме включающей все её атрибуты и связи с другими информационными объектами, а также иными формами представления.

Отсюда же форму представления объекта можно назвать целостной и полной в случае если эта форма обладает уникальной и постоянной идентификацией, всегда соответствует данному информационному объекту и включает все его характеристики необходимые для восприятия пользователем или обработке автоматизированной системой.

Что это означает на практике. Предположим у нас есть веб сайт за которым находится некая база данных объектов. Эти объекты можно искать через формы поиска, листать через интерфейс навигации и просматривать по отдельности в нескольких разрезах. В данном случае целостной или полной формой будет та где присутствует вся информация по данному объекту, например, на странице полного его описания. В случае если полная информация о информационном объекте может быть собрана лишь из нескольких форм представления, можно утвержать от отсутствии целостной формы у данного объекта.

В качестве примера который прямо сейчас у меня перед глазами. Центробанк России публикует в онлайне перечень российских кредитных организаций (банков) с подробной информацией о них. По ссылке можно посмотреть как выглядит форма поиска – http://www.cbr.ru/credit/main.asp?query=advanced.

При этом форме поиска по организациям можно задать такие параметры как «Регион», «иностранное участие», «ОПФ – акционерные общества», но, при этом, найдя организации с выбранными критериями можно обратить внимание что сами критерии в карточке организации отсутствуют. Конечно, при просмотре можно предположить регион по адресу организации, а иностранное участие и ОПФ определить из последующего просмотра отчётов организаций, но это пример отсутствия целостности информации, так как мы имеем ситуацию когда в двух формах её представления доступны различные данные.

Причём этот пример, именно что то что мне попалось на глаза и выбранные критерии поиска далеко не столь значимы чтобы говорить что отсутствие целостной формы искажают картину. И всё же есть много, очень много случаев когда важная информация «разрывается» между несколькими формами и несмотря на её наличие – это ограничивает возможности для пользователей по работе с ней.

Особенно это касается всего что затрагивает государственные сайты и сайты крупных организаций/корпораций. Зачастую они настолько сконцентрированы исключительно на формальных сторонах соблюдения законов и раскрытии информации, что на форму представления информации не обращают внимание или же наоборот делают всё возможное чтобы форма была максимально неудобной.

Всё это непосредственно затрагивает вопросы юзабилити и информационной архитектуры и без очень чёткой фиксации требований к формам представления информации, простые требования по полноте информации будут неэффективны, информацию будут разрывать между различными формами представления – по недосмотру или сознательно и весь эффект от требований будет сходить на нет.


Июн 29 2008

Ссылки по формам и принципам работы с информацией. Онтологии и находимость.

Tag: links, webivbeg @ 12:43 пп

Прежде чем продолжать рассуждения по анализу информации как в виде потоков, приведу несколько ссылок на схожие рассуждения и их основу.

  • О проблемах выявления неполноты и избыточности в онтологических пространствах объектов исследования – заметка о онтологиях и их полноте на сайте Shcerbak.net. Рекомендую к прочтению и её и сам сайт, там излагается научный подход к проблеме в отличии от моих размышлениях основанных на упрощении понятий.
  • Вопрошание об учёте – рассуждения и ссылки о учёте в блоге Анатолия Левенчука (ailev). Всячески рекомендую к прочтению по теме эту заметку, его блог в принципе.
  • Концепция гос. учёта версии 2 – на мой взгляд, это один из наиболее интересных документов разработанных по ЭГ в РФ. В силу специфики ЭГ там больший упор на юридическую сторону, чем на информационную, что в любом случае не умаляет его значения. В значительной степени описанное в этом документе было подготовлено к реализации в прошлой версии федерального сайта госзакупок, но так и не появилось в силу множества политических причин. Это не совсем инфология, но тема очень близкая к ней.
  • Ambient Findability – книга о находимости информации и её значении в нашей жизни.
  • Findabilty.org – сайт по находимости информации
  • Flickr: Search Patterns – коллекция примеров построения форм поиска и представления результатов. Наглядно и показательно.
  • The Information Architecture Institute – Институт информационной архитектуры. Публикации по формам представления информации и примеры проектирования интерфейсов её представления.
  • ISO 11179. Information Technology – Metadata Registry (MDR)

Июн 26 2008

Мир как поток и совокупность информации. Часть 3.

В предыдущих двух частях: часть 1 и часть 2 я описывал информационные потоки в общем случае, а также некоторые их метрики. В этой части я заторону подробнее такое понятие как информационный массив, конечно, в контексте информационных потоков.

Информационный массив (information dataset) – это совокупность однородных или связанных объектов включая их связи и структуру отношений, не обладающих временными метками или же в когда временные метки не являются ключевым критерием их рассмотрения и анализа. В качестве информационных массивов можно рассмотривать любую энциклопедию, справочник, коллекции статей «How-To». При этом массивы, как и потоки, можно рассматривать как простые (однородные) так и сложные.

Например, рассмотрим такой массив данных как телефонный справочник городов. У него простая структура: код, город; и, несмотря на то что можно фиксировать ещё и дату внесения кода в справочник, конечному потребителю этой информации дата будет ненужна в подавляющем большинстве случаев. Максимум она может подтвердить актуальность справочника, но вероятность того что кто-то, к примеру, будет подписываться на RSS изменений этого справочника стремиться к нулю, так как это массив информации, а не поток и его потребление основывается на принципах точности, поиска и сопоставления информации, но не на ежедневном потреблении новых данных. В то же время, рассматривая записи в этом справочнике с точки зрения модели информационных потоков мы можем определить в нём дополнительную дату – дату обновления записи и определить максимальное число информационных потоков. Continue reading «Мир как поток и совокупность информации. Часть 3.»


Июн 25 2008

Статья на Cnews про zakupki.gov.ru

Cnews.ru меня опередили, наверное потому как их редактора читают мой блог;), и я рекомендую посмотреть вот эту статью на их сайте практически всё там написанное чистая правда.

Выражения заказчиков даже смягчены и мне бы не хотелось приводить их дословно, слова там пожёстче чем просто сетования на на недоступность. Про выражения поставщиков могу вообще не упоминать, фактически потребности поставщиков были просто исключены работ.

Если когда я только увидел новую версию федерального сайта у меня закрадывались сомнения , то сейчас сомнений мало. Фактически нынешний федеральный сайт основан продукте Норбита Госзаказ 4.0. Сколько внедрений живых внедрений этого продукта по России? Немного немало а целая Брянская область где он с октября 2007 года и до сих пор работает в непонятном статусе так как сам у самого сервера доменного имени всё ещё нет, а все закупки заказчики размещают и на официальном сайте. Собственно ссылки:

Обратите внимание в Брянской области обе системы эксплуатируются параллельно уже полгода, а вот на федеральном уровне внедрение пошло «рывком». Стоит обратить внимание на цифры – за всё время эксплуатации системы в Брянской области там было размещено чуть более 1600 закупок. Это за более чем за 7 месяцев итого в среднем по 8 закупок в сутки.

Для сравнения на старой версии федерального сайте ещё пару месяцев назад в плохой день размещалось не менее 1500 закупок (разница в 187 раз), а в пиковый день 2500 (разница в 312 раз). В общем-то единственные сайты которые хотя как-то приближались к нагрузке на федеральный – это были сайты Москвы и ещё пары наиболее экономически развитых регионов.

Так вот именно этот продукт – это хрестоматийный пример того как нельзя разрабатывать на .NET и для Веб в принципе. Буквально можно брать ручку или стилус и записывать проходя по страницам. Далее некоторые технические подробности наблюдений за новым zakupki.gov.ru:

1. Полное отсутствие понятия дизайн как такового, его просто нет.

Continue reading «Статья на Cnews про zakupki.gov.ru»


Июн 25 2008

Государство и ИТ. Почувствуйте разницу

Tag: госзаказ, из жизниivbeg @ 8:09 дп

Пока у меня копятся впечатления про новую версию zakupki.gov.ru и набираются материалы по следующей статье «Мир как поток и совокупность информации», не могу не поделиться парой ссылок.

1-я – приведённый выше zakupki.gov.ru разработки Норбит/Ланит

2-я – обновлённый сайт МинЗдравСоцразвития. www.minzdravsoc.ru разработки Метод.ру с дизайном ДизайнДепо.

Как говорится, почувствуйте разницу.


Июн 24 2008

Microsoft Office и ODF. Оценка причин

Tag: стандартыivbeg @ 8:15 пп

Блоги и издания полны упоминаний о высказываниях Стюарта МакКи по поводу поддержки ODF в следующем сервис паке к Microsoft Office. Собственно по ссылке, оригинальная статья в Infoworld.

Собственно а кто такой Джон Галт Стюарт МакКи? Стюарт МакКи – это US National Technology Officer или, говоря по русски, человек ответственный за технологическую политику компании для работы с государственными заказчиками в США.

Важно также что именно он, а не многие другие адвокаты OOXML заявил о поддержке ODF. Всё довольно просто и об этом упоминул один из комментаторов к публикции в Infoworld, 31 сентября начинается новый фискальный год в США, в это время появляются новые деньги и вводятся новые правила по регулированию государственных закупок. Учитывая что дискуссии о совместимости форматов идут не один год, Microsoft решили подстраховаться и поддержать ODF дабы гарантировать продажи своего ПО как бы не развивались события.

А вот в том что касается остального мира, то не стоит спешить раньше времени объявляя о победе. По статистике Енота государственные учереждения в России публикуют файлы .docx уже втрое чаще чем .odt, 2122 против 778. Во многом так происходит от того что .docx установлен по умолчанию в MS Office 2007 и заказчики сохраняют документы именно в нём и от того что MS Office будет поддерживать ODT здесь изменится мало, если только ODT не будет установлен форматом по умолчанию.

Впрочем, безусловно, родная поддержка ODT в MS Office – это хорошая новость, но не стоит этот первый шаг спешить рассматривать как победу. Всё ещё нет ни одной промышленной системы документооборота основанной на ODT, существует огромное наследие настольное ПО которому требуется наличие MS Office для генерации отчётов и экспорта документов и есть множество созданных и создаваемых государственных и коммерческих систем которые работают исключительно в окружении Microsoft.


Июн 22 2008

Мир как поток и совокупность информации. Часть 2

В первой части я писал о восприятии информации в рамках модели событие-факт и о понятиях информационного потока и связанных с ним явлений. Далее я подробнее остановлюсь на структуре и метриках информационных потоков.

Одна из основных задач при отделении потоков информации друг от друга – является разделение их на основе метрик связанных с ними фактов, а также их происхождении. В большинстве случаев мы можем рассматривать цепочку событий как поток в случае если они обладают единой структурой или же набором критериев позволяющим привести их к общему виду. Источник информации – источник потока, также может рассматриваться в качестве одного из подобных критериев. Часто потоки могут зависеть друг от друга и разделяться на меньшие потоки или же давать направление другие потокам.

К примеру любой блог обладает потоком новых записей. Источником этих записей является веб сайт или страница где этот блог находится, а все записи однородны по структуре и именно поэтому могут рассматриваться в качестве потока. С точки зрения событийной модели, публикация записи – это событие. Но единственный ли это поток в блоге? Если мы рассмотрим каждую запись по отдельности, то обнаружим ещё и поток комментариев который можно рассматривать и как единый поток всего блога со ссылками из комментария на запись в блоге, так и как совокупность потоков комментариев от каждой записи. Отличия между совокупной лентой комментариев и отдельными лентами кроются и в принципах потребления информации пользователями, поскольку общий поток комментариев бесконечен, а вот комментарии по отдельной записи имеют время жизни. Хотя и иногда люди комментируют записи и через 1-2 года после её появления, чаще же есть ограниченный период времени в течении которой поток комментариев по данной записи интересует её читающих.

Этот пример характерен наличием измеряемой структуры потока.

Структура потока (information stream structure) - это совокупность характеристик событий и связанных с событиями фактов, включая другие потоки исходящие от этих фактов, а также вхождение различных фактов друг в друга.

У большинства известных потоков структура довольно проста – это однородные или сводимые к однородным факты связанные с событиями из одного источника или несколькими обладающими схожими характеристики. В то же время во всех случаях когда факты идущие с событиями потока могут быть связаны между собой и другими фактами, здесь они могут рассматриваться в рамках одного потока.

Continue reading «Мир как поток и совокупность информации. Часть 2″


Июн 20 2008

Мир как поток и совокупность информации. Часть 1

Tag: из жизниivbeg @ 9:54 дп

Несколькими постами ранее я задавался вопросами о том сколько же информации средний человек производит в сутки и делал утверждения что общий объём информации в мире конечен. Убеждённости в конечности информации, я придерживаюсь и поныне, важно уточнить какой именно информации. Я имею в виду в первую очередь информацию производимую людьми для людей и есть много объективных факторов позволяющих утверждать что она конечна – это пределы населению Земли, наличие пределов информации производимой одним человеком в сутки и ограниченностью форм представления информации (текст, голос, видео, изображения) и многое другое.

Конечно, если мы начнём обвешивать температурными датчиками океаны через каждые 2 метра и мытаться описывать физические свойства материалов объектов вплоть до атомов, то пределов информации не будет, вопрос скорее в том, а потребуется ли это человечеству когда-либо.

Особенность же инфорации создаваемой людьми непосредственно или при их участии в том что она очень чётко делится на события, микрособытия, факты и информационные потоки плюс некоторые дополнительные определения. Для тех кто увидит длаее знакомые названия – эти определения относятся к информации, а не к разработке. Им можно найти соответствие в тех или иных системах и подходах, но суть у них разная, не стоит также проводить паралели между этими определениями и хранением информации, они могут существенно отличаться. Некоторые примеры соответствий я буду приводить в определениях.

Событийная модель (event model) - описание правил и условий наблюдения события, оценки погрешности. Минимальное значение измерений для оценки атомарности фактов и отделения событий от микрособытий. К примеру, событийная модель основанная на измерении времени обычными часами характеризуется атомарностью событий не превосходящих 1 секунду. А событийная модель анализа собственного распорядка дня может рассматриваться с атомарностью в 1 час, 30, 10 или 5 минут.

Continue reading «Мир как поток и совокупность информации. Часть 1″


Июн 20 2008

Уходы из Yahoo и слухи о изменениях в Яндексе

Tag: web, поискivbeg @ 7:47 дп

BusinessWeek пишет что Yahoo покидает сразу несколько известных в поисковом мире людей – Vish Makhidjani, Brad Garlinghouse и Qi Lu.
Подробнее в статье Yahoo’s Executive Brain Drain Continues

Что более всего интересно так это слухи что Vish Makhidjani уходит в Yandex на роль CEO (возможно, это не так, читайте UPDATE ниже).
Если последний факт правда, то ситуация становится ещё интереснее и может быть предвестником одного из двух вариантов развития событий:

1. Microsoft окончательно отказывается от Yahoo! как интересного актива, покупает Яндекс сразу же после его выхода на IPO или, как вариант, становится одним из основных акционеров.

2. Яндекс нацеливается на выход на пределы РуНета, на мировой рынок или, хотя бы, европейский.

UPDATE: Насчёт CEO в Яндексе это, похоже неверная информация, судя по этой публикации, Makhidjani, будет CEO of Yandex Labs, исследовательского подразделения Yandex в Силиконовой долине.


Июн 18 2008

Подробнее Rambler.Beta с точки зрения работы с информацией

Tag: web, поискivbeg @ 7:55 пп

Начну с того что проект мне лично интересен тем что я и сам плотно занимаюсь вопросом фокусированного индексирования и структуризации данных (Focused Indexing and Feature Extraction) и новинки по теме всегда любопытны. Коротко я по этой теме уже писал, продолжу в деталях.

Далее что лично мне не нравится в Рамблер.Бета и почему лично я считаю что в текущем виде этот проект если и выживет то популярности не приобретёт.

1. Онтология информационных объектов

На начальной странице сайта видно некоторое число информационных срезов – это поиск по Википедии, Вакансиям, Ценам и многим другим характеристикам. Иначе говоря есть некий перечень объектов которые можно извлечь в сети и в некотором виде представить пользователям. Особенность в том что в одну кучу скинуты неравновесные объекты, если для одних из них вертикальный поиск логичен и разумен, то для других неестественнен и проистекает это от того что у информации разного рода и разной природы также присутствуют различные «темпоральная модель» и «среда обитания». Темпоральная модель – это изменение рассматриваемой фокус группы объектов с течением времени.

Например, массив вакансий характеризуется тем что:

  • постоянно поступает новая информация;
  • уже проиндексированная информация не обновляется;
  • объект обладает «сроком полезности» так как где-то через месяц вакансия становится неактуальной.
  • каждый объект обладает рядом характеристик общего рода – дата публикации, гео-метка
  • каждый объект обладает рядом специализированных характеристик не гармонизируемых с существующими классификаторами;
  • выборка вакансий характеризуется поведенческой моделью – «найти лучшее из нескольких». А то есть последовательная серия действий – поисков пользователем

С другой строны информация о погоде отличается коренным образом:

  • новая информация о погоде отсутствует;
  • информация о погоде обновляется не реже раза в сутки, это именно обновления, не новая публикация;
  • объект не обладает «сроком полезности», но обладает историей значений неважной для 99% пользователей;
  • объект безусловно и обязательно связан с географическим местом – единственной его общей характеристикой
  • информация о погоде характеризуется 100% соответствием известной географической точки и не поведенческая модель большинства пользователей не предусматривает навигации по ним, важна лишь актуальность;

А также статьи в Википедии:

  • Новая информация появляется, но не является самоцелью поиска;
  • Информация обновляется достаточно часто (не реже появления новых статей);
  • Объект не обладает сроком полезности, история его значений присутствует, но неважна для 99% пользователей;
  • поведенческая модель пользователей зависит от характера поискового запроса и в большинстве случаев, работа с ВикиПедией осуществляется посредством соответствия 1-к-1 ключевого понятия и статьи и навигацией между статьями.

Continue reading «Подробнее Rambler.Beta с точки зрения работы с информацией»


Следующая страница »


Rambler's Top100