Май 31 2008

US. Обязательное раскрытие финансовой информации в XBRL

Прочитал эту новость несколько дней назад и всё искал подробности и подтверждения.

Комиссия по торговле ценными бумагами США вводит обязательное требование по раскрытию публичных отчётов компаний в машиночитаемом и структурированном формате XBRL (eXtensible Business Reporting Language)

Новость на сайте New York Times – S.E.C. Moves Toward Requiring Interactive Data Filings

Что это означает? Это означает дополнительный уровень прозрачности и простоты анализа отчётов как частными лицами, так и организациями кто занимается этим профессионально.

А я от себя хочу ещё раз добавить что прозрачность – это в первую очередь публичность, полнота и а также структурированность информации. Форма подачи информации имеет огромное значение и без законодательного закрепления требований добиться результатов невозможно. Зато можно многое скрыть «размазывая» цифры по тексту.

К слову про разработки российского аналога XRBL мне слышать не доводилось, в списке международных XRBL проектов России также нет.

Плюс дополнительные ссылки в блоге посвящённом XRBL.

P.S. Помню про обещание написать подробнее про форум госзакупок и обязательно напишу чуть позже, там тема публичности тоже поднималась и более чем актуальна.


Май 31 2008

Формы общения и формализация

Tag: алгоритмы, размышленияivbeg @ 5:40 дп

Прошлый раз я писал о разнице в восприятии между электронным письмом и голосом, на сей раз будет тема отличий между общением электронными письмами, голосом и общением вживую. Многое из того о чём я буду писать может показаться очевидным и так и должно быть. С классификации и систематизации очевидного начинается поиск неочевидного.

Поскольку формат блога не даёт простого способа вставить в него таблицу – я то в файле communication_table я изложил часть параметров и критериев для сравнения различных способов общения.

Конечно это обобщённые критерии, на практике каждый из них может быть разделён и представлен в виде набора характеристик и атрибутов. Аудио канал – можно разделить собственно на голос, скрытые потоки, голосовой поток внутри него на информационную составляющую, тембр, скорость речи и так далее. Это ровно то что я писал про иерархию метаданных и восприятия информационного объекта в контексте.

Но что отличает живую встречу от голоса?

Во-первых основное отличие – это физическое присутствие. Физическое присутствие – это полуинтуитивный фактор. Тем не менее почему в личной встрече многие не могут сказать того же что они легко говорят в онлайне? Причина в страхе или, если угодно, в понимании последствий собственных слов. Разница между онлайн диалогом и диалогом вживую такая же как между беседой вживую и беседой вживую когда у обоих собеседников по кольту за поясом. Физическое присутствие вносит в диалог вероятность брутального решения конфликта что влияет на то кто и как говорит.

Continue reading «Формы общения и формализация»


Май 30 2008

Информационные потоки, скрытая информация и связность

Tag: алгоритмы, размышленияivbeg @ 10:06 дп

Предупрежу заранее – это будет длинный текст, по принципам работы с информацией, причём не последний из этой темы поскольку за один раз всего не охватить.

Рассмотрим некоторые вопросы:

  • Как мы думаем когда мы думаем?
  • Влияет ли то о чём мы думаем на то как мы это делаем?
  • Что именно – опыт, информация, контекст или внутреннее состояние оказывает наибольший вклад на решение?

Казалось бы всё это исключительно – психология, социология и иные гуманитарные науки на них основанные и с ними связанные. Но это не совсем так, поскольку логика мышления очень тесно пересекается с вопросами извлечения скрытой информации.

Рассмотрим такой пример. Всегда существовало множество способов общения между людьми – письма, встречи и разговоры, телефонные звонки плюс интернет добавил такие возможности как email, средства обмена быстрыми сообщениями, видеотелефония и так далее.

Я думаю что никто не будет спорить что общение через Интернет и общение вживую отличается существенно, а также все различные способы общения имеют свою степень . Вопрос в том как именно оно отличается иначе говоря в систематизации этих отличий и понимании почему кто-то предпочитает общаться вживую, а кому-то этого очень не хочется.

Далее я буду использовать термины информационный канал и информационный поток – они ненаучны, но подходят для описываемой ситуации. Важно не путать их с ИТ понятиями передачи информация – сходства есть, но только сходства, не соответствие. Точно также будут встречаться другие термины которым я пока не могу подобрать нужные научные названия, поэтому буду их разъяснять по ходу текста.

Информационный канал (в общении) – это способ передачи информации от человека к человеку. Информационный канал обладает рядом характеристик и может содержать одновременно несколько информационных потоков.

Информационный поток (в общении) – это информационный срез процесса общения основанный на принципах восприятиях, способах передачи информации, «скрытой и сопроводительной» информации общения.

Несколько примеров. Когда Вы переписываетесь по электронной почте, то электронная почта как средство общения – это информационный канал. Посредством его Вы можете переслать текст, получать письма (тексты) при этом общение может и будет происходить с задержками.

Continue reading «Информационные потоки, скрытая информация и связность»


Май 29 2008

Об онлайн голосованиях. Средства борьбы с роботами

Tag: blogging, web, web 2.0, социальные сетиivbeg @ 4:17 пп

В качестве преамбулы.
Вчера я весь день провёл на «II международном форуме» «ГОСУДАРСТВЕННЫЕ ЗАКУПКИ: ПЕРСПЕКТИВЫ РАЗВИТИЯ»». Интересного довелось услышать много, а кое что даже и самому рассказать в теме методов прозрачности госзаказа. Об этом я ещё напишу позже, как только утрясу в голове всю накопленную информацию.

Сейчас же о другом. Текущее голосование в ЖЖ навеяло мне мысли о существовании таких же проблемах прозрачности и для, вроде как, более простых явлений таких как рейтинги и голосования.
То что методика голосований СУПа непрозрачна – это понятно. А кто-нибудь пытался описать эту непрозрачность системно? Если да – киньте ссылку. Далее же будут мои размышления.

Что вообще основа прозрачности:
1. Публичность!
2. Полнота (достаточность)
3. Системность
4. Оперативность
P.S. конечно критериев больше, но начнём хотя бы с этих.

Начну с того какие меры вообще можно предпринимать для минимизации влияния роботов
Публичность
1. Публикация всех первичных данных голосования в открытом доступе

2. Сохранение этих данных в течении времени, в случае наличия технических ограничений предварительная фиксация продолжительности доступности первичных данных (в неделях, месяцах)

3. Отсутствие юридических и иных ограничений как то NDA и прочее ограничивающих доступ к публикуемой информации.

4. Предупреждение всем голосующим что голосование есть публичное открытое действие и участвуя в нём голосующий соглашается с размещением данных о нём в открытом доступе.

5. В крайних случаях невозможности предоставления всей описанной информации в открытом доступе, размещение правил описывающим данные ограничения.

Вопрос – зачем это нужно? Потому как если данные доступны и могут быть подвергнуты машинной обработке, то желающих провести детальный анализ наберётся, особенно если тема имеет общественное значение. Технически вопросы публичности решаются просто, а иногда и совсем просто. Это в большей степени мотивационный и организационный вопрос и по стремлению организации к подобной публичности или стремлению её избежать можно судить о доверительности результатов. Пример с СУПом показателен и не единичен.

Continue reading «Об онлайн голосованиях. Средства борьбы с роботами»


Май 27 2008

Ответы на вопросы

Tag: вопросы, из жизниivbeg @ 9:43 пп

В последнее время мне задают очень много одинаковых вопросов, так что я решил собрать их все вместе в виде ответов. Это не N фактов о себе, а просто возможность не повторяться.

1. Я очень редко использую ICQ, Skype и любые другие пожирающие время мессенжеры. Если хотите со мной связаться, лучший способ сделать это – по электронной почте. Её я читаю практически всегда, если я на письмо не ответил, то скорее всего оно ушло в спам фильтр, можно упомянуть о нём в комментарии.

2. В блоге появляются записи каждый день не потому что я пишу их каждый день, а потому как в некоторые дни я пишу их больше и сохраняю в черновиках, а ко дню публикации в блоге лишь дочищаю и дополняю. Это одно из ощутимых удобств standalone блогов и возможность продумать мысли дольше. Некоторые записи так иногда появляются после нескольких месяцев бытия в черновике.

3. Меня интересуют поисковые технологии, меня не интересует SEO и не думаю что когда-либо заинтересует, кроме как в теме противодействия худшим из активностей «оптимизаторов». Учитывая первое и второе вместе, не стоит ожидать от меня откровений об этих областях.

4. В поисковых технологиях я себя к Гуру не отношу, если хотите найти Гуру или хотя бы некоторых из них – смотрите, например, Cоциоранк для ru_ir . Мой же основной интерес в структуризации и связывании информации и поисковые технологии в этом контексте.

5. В трансляции блога на Livejournal никаких подзамочных записей нет и не будет – это публичный технологический журнал, сам же я воспринимаю «френдленту» как аналог аггрегированного RSS.

6. Несмотря на то что много о чём я пишу затрагивает разработку ПО непосредственным способом – это отнюдь не основной род моих занятий. Основной указан, например, в профиле на МойКруг.

7. Собственные орфографические ошибки я коллекционирую. Когда их накопится достаточное количество, то представится редкая возможность анализа индивидуальной зависимости типов ошибок и их числа в зависимости от времени суток, дня, недели, месяца, температуры окружающей среды, эмоционального состояния, фазы луны и прочая и прочая. По этой же причине их я не исправляю в уже написанном тексте.

Как-то вот так.


Май 27 2008

Социальный рейтинг как спам фильтр

Мысль пока не оформившаяся у меня в окончательное видение – пока только как идея и алгоритм выявления сплогов на блогоплатформах (LJ, Blogger или Community Server) с одной стороны блокирующая спам боты с другой подталкивающая пользователей к активности.

1. Введение на блогоплатформах системы рейтингов а ля СоциоРанк основанных доверии и активности уже зарегистрированных участников плюс расширение его правилами для TrustRank.

2. Создание шкалы «спамоподавления» для участников с разными рейтингами – необходимость ввода каптчи при публикации записи, принудительное преобразование всех ссылок в записях пользователя в plain text или маршрутизация их вроде коротких ссылок используемых в Урлусе (www.urlus.ru) и других подобных сервисах.

3. При выявлении спам блога, не только его блокировка, но и фиксация его рейтинга на момент блокировки плюс фиксация кто из других участников выразил ему доверие (добавил во френды, блогролл и так далее) после чего автоматическое внесение подобных участников в «группу риска» с назначением штрафных баллов. По накоплению этих штрафных баллов – понижение рейтинга участника.

Проблема тут всего одна.

Большинство существующих блогохостингов нацелены на максимальное увеличение своей аудитории пусть даже и ценой спам-ботов. За редким исключением они применяют весьма малое число мер для борьбы со спам-блогами поскольку если только блогоплатформа не поддерживается самим поисковиком то, по большому счету, на владельцев блогохостинга обилие спама волнует мало.

В остальном же совокупность простых технических и организационных решений и простых алгоритмов будет достаточно если не для ликвидации проблемы, то для сильного её снижения.


Май 26 2008

Социоранк. Что есть и как развивать

Tag: blogging, web, web 2.0, социальные сетиivbeg @ 9:25 пп

Возвращаясь к Социоранку (http://urlus.ru/sociorank/), моему небольшому и , имхо, полезному некоммерческому проекту – есть желание его улучшить, сейчас осмысливаю варианты как это можно осуществить.

Что есть:

- методика расчёта тематического рейтинга для пользователей LJ (да и вообще любых сообществ при желании и API)

- накопленная база рейтингов на несколько сотен тысяч пользователей и более 950 сообществ

- сделанный на коленке за 20 минут сайт социоранка

Что можно сделать:

- Flash виджет для показа рейтингов конкретного пользователя для вставки в профиль LJ или куда угодно. Например, через API он может прокушивать XML или CSV по пользователю или сообществу.

- Flash для визуализации кластеров сообществ – кластеры можно экспортировать в виде тех же CSV или XML и так далее.

- Публичное API в виде веб сервиса или для экспорта в XML/CSV/Thrift/YAML/?

- улучшить дизайн сайта – добавить формы быстрого перехода на пользователя и
сообщество, улучшить эргономику

- какие-либо ещё идеи?

Ограничения:

- мои познания в CSS весьма далеки от дзен;

- в программировании Flash я, также, совсем не айс;

Вопросы:

- есть ли идеи что можно ещё добавить для повышения полезности ?

- может ли кто-нибудь помочь с созданием виджета и / или улучшением дизайна ? Может быть всё вообще просто решается, и уже что-то готовое есть.


Май 25 2008

Умственная гигиена

Tag: из жизни, стоит почитатьivbeg @ 8:15 пп

Из правды мат не вырежешь, а в журнале [info]flying_bear обнаружилась отличная история.

В Новосибирске, двадцать с лишним лет назад. Разговариваю с парнем, только что закончившим университет, очень толковым (и, действительно, стал потом хорошим физиком), про жизнь в общежитии. Ну, говорит, придет кто-нибудь, сядет, и начинает рассказывать, как новые ботинки купил – приходится посылать нахуй. Я несколько заколебался тогда – не слишком ли? Так ведь, отвечает, иначе вся жизнь пройдет в таких вот разговорах.

Не добавить, не убавить.


Май 24 2008

Англоязычные ссылки с комментариями. Базы данных

Tag: linksivbeg @ 8:36 пп
  • NodeDB – Python implementation of CouchDb like database – альфа версия и первая попытка воспроизвести возможности CouchDB на Python. Почему бы и нет, что может Erlang чего нельзя сделать на Python?
  • Multi-Inflection Point Alert - некоторые размышления об ИТ в ближайшие несколько лет, в основном про разработку и затрагивая базы данных.
  • Top 10 Reasons to avoid SimpleDB hype – автор осмысленно подошёл к аргументам почему реляционные базы данных не уступят SimplDB, CouchDb и им подобным. Аргументы взвешенные и прислушаться к ним стоит, хотя и далеко не со всем лично я согласен. В среднесрочной переспективе (3-6 лет) я всё же считаю что document-based или иначе column-based базы данных существенно потеснят классическую реляционную модель.
  • Wego.com, мета поисковик по сайтам путешествий, использует CouchDb – по моему это уже коммерческая эксплуатация.
  • GeoData в CouchDB – автор работает с геоданными и описывает применимость CouchDb для этой области.
  • Стартап AsterData предлагают маштабируемую аналитическую платформу. Фактически это перенос модели BI на новый технологический уровень и у них уже первый серьёзный клиент – MySpace с 100 террабайтами данных.
  • А много ли это 100 террабайт?  Для тех кто ещё не читал в  англоязычной Википедии в статье PetaByte приводятся интересные цифры по различным объёмам накопленных данных разными организациями. А из интересных цифр – это совокупный объём данных обрабатываемых Google’ом в сутки – это 20 петабайт, а возможный максимальный объём хранения достигнут в IBM KittyHawk – 32 петабайта
  • А сколько всего информации в мире? IDC утверждают что в 2006 году её было создано на 161 эксабайт правда включая все копии и дублирование.  Лично я готов спорить что на порнографию и видео там приходится не менее 80% и ещё 15% на телефонные звонки.

Май 22 2008

Анализ ссылок – окончательные итоги

Tag: web, алгоритмыivbeg @ 6:21 пп

Подводя черту под всем что я ранее писал про выявление поискового спама, задачи которую я лично рассматриваю лишь как малое подмножество понимание связей между ресурсами вцелом и автоматической структуризацией информации, так вот итоги которые я могу назвать если не окончательными, то завершающими мой основной интерес к теме.

Всё что я писал про выявление ссылок в контексте, возможностей повышения точности выявления спама до 90% полностью подверждается. Завершив теоретическую часть этого исследования и закончив эксперименты с включением уже всех основных правил отсева не только естественных ссылок, но и спама (более 40 правил суммарно) могу сказать что эта задача абсолютно решаема. Вопрос лишь в желании поисковых систем эту задачу решить.

Некоторые итоги:

1. В среднем, как естественные ссылки выявляется до 60% от общего числа ссылок и 80% от числа всех естественных ссылок на странице.

2. Среднее число спам ссылок варьируется от 10-35% от общего числа в зависимости от тематики и посещаемости сайта.

3. Алгоритм гарантированно отсекает от 45 до 65% спам ссылок от общего их числа, при этом ошибки возникают лишь в 4-6% случаев. То есть из 253 ссылок помеченных как явный спам в блогах, лишь 10 им не являлись. Для новостных сайтов из 213 помеченных как спам, не были им лишь 3 ссылки. Часть этих ошибок проистекает из уже известных изъянов правил, которые также ясно как исправлять.

4. Алгоритм разбора и анализа работает медленно, особенно при первоначальном анализе страницы и сайта, он может занять до 1 минуты. При предварительном обучении, повторный анализ страницы редко занимает больше 20 секунд. Производительность, в любом случае, не являлась самоцелью, целью была полнота картины.

5. Ряд малых экспериментов показал что ценой ещё большего замедления работы алгоритма гарантированно может быть выявлено до 80% спам-ссылок даже только с учётом уже имеющихся данных.

6. Часть правил, к моему великому сожалению, пока не поддаются полной автоматизации и их эффективность зависит от наличия аналитика способного тратить в день хотя бы пару часов на корректировку параметров.

7. Все применяемые правила крайне просты математически и сложны огранизацией связей данных. Мои записи о формировании единой модели и эти эксперименты связаны самым непосредственным образом. Это не PageRank, не нейросети и, даже, во всяком случае пока не нечёткая логика – скорее это мини-Семантический Веб. Если алгоритм начать использовать без накопленной информационной базы – его качество работы упадёт раза в два.

8. При возможности расширения информационной модели данными которыми обладают только поисковые машины – доступ к поисковой выдаче, время появления ссылки в индексе, PageRank сайта и страницы и многое другое позволит довести точность выявления явного спама до 95-99%.

9. Да, выявление ссылки в контексте возможно и такие ссылки успешно выявляются.

10. Алгоритм эффективно работает только в Рунете и на русскоязычных сайтах. Причин много, главная – РуНет невелик и предсказуем.

Мои личные итоги – тема мне слегка поднадоела. Наверное, где-то в июне я всё же найду время и переборю лень чтобы оформить результаты в человеческом виде, отчёт с графиками и проче и прочее, но явной коммерческой применимости у этой частной задачи не наблюдается. Есть, и более актуальные задачи, и то что интересует меня более всего – автоматизация выявления правил обработки неструктурированных данных в общем случае.

Засим по этой теме информационный перерыв, скорее всего длительный.


Следующая страница »


Rambler's Top100