Окт 31 2008

Про проектную документацию и её авторов

Tag: стоит почитатьivbeg @ 4:28 пп

Чуть было я задумался над этой темой как увидел пост Дениса Доронина-Бескова который, на мой взгляд, кратно и ёмко излагает, кто, что и как должен делать по документам в проектах на разработку.

Конечно, многие приведут примеры когда эти правила нарушаются, но это вопрос корректности совмещения  ролей.


Окт 31 2008

User Experience 2008

Сейчас в Инфопространстве и сегодня  я там половину на User Experience 2008, выступаю с докладом по юзабилити в e-Gov.

Если Вы тоже там и есть желание познакомиться вживую – связаться со мной можно по мобильному или если не знаете, киньте Ваши контакты в личку ЖЖ или мылом на ibegtin (собачка) gmail.com


Окт 30 2008

Скиур. Новые примеры извлечения новостей

Дополняя примеры сайтов с которыми умеет работать Скиур создавая RSS ленту из новостной веб страницы. В этот раз сайты посольств и международных организаций.

Пока катастрофически нехватает времени на развитие алгоритма на следующие смысловой уровень, хотя идеи и понимание как это сделать есть, но пока он только хобби и источник вдохновения . Если будут предложения по осмысленному или коммерческому сотрудничеству в его использовании для пользы человечества – милости прошу.


Окт 30 2008

Yahoo! Query Language и раскрытие информации

Tag: web, web 2.0ivbeg @ 3:20 пп

В Yahoo! опубликовали спецификацию на YQL – Yahoo! Query Language – язык запросов для получения данных из информационных массивов Yahoo! Причём доступ к данным производится через специальный вебсервис, а результаты можно получить в XML или JSON. Нехватает толькок Thrift./

При том что сама по себе идея очень интересная, она так и просится в различные системы раскрытия информации и предоставления онлайного программного доступа к массивам данных.


Окт 28 2008

Ссылки. Поиск схожих изображений и прочие поиски по изображениям

Tag: поискivbeg @ 6:30 пп
  • Alipr – Automatic Photo Tagging and Visual Image Search
  • Simplicity – Semantics-sensitive Integrated Matching for Picture LIbraries
  • a-LIP – Automatic Linguistic Indexing of Pictures
  • Tiltomo – поиск изображений по похожести
  • Cydral – поисковик родом из франции (на английском)
  • Gazopa – поисковик как венчурный проект Hitachi работающий в полузакрытом режиме.
  • Vima Technology – предлагают продукты поиска Vima Search
  • LTUTech – также предлагают продукты поиска и распознавания изображений
  • TinEye – поиск разработки компании Idee которые кроме того поддерживают проекты визуального поиска в Idee Labs. Их же, кстати, используют в Digg для отслеживания дубликатов размещаемых изображений.

Отличие поисковиков по подобиям в том что они не могут сделать простой фильтр по пропорциям в отличии от фильтров дубликатов и в том что у них нет словарной базы.

Кстати, поиск похожих изображений это один из способов, правда как оказалось не сильно удачных, для выявления «взрослых картинок».


Окт 28 2008

Поиск дубликатов изображений

Tag: алгоритмыivbeg @ 4:12 пп

Поразмышляв как можно было бы реализовать поиск дубликатов изображений, а ля то что сделали в Яндекс, просуммирую мои мысли как это можно реализовать.

Заранее предупрежу что никакой строгой логики или формального изложения тут нет.

Какие шаги необходимо предпринять:

1. Создание «профилей изображений» – базы метаданных по каждому на основе которой можно было бы делать дальнейшие расчёты.

2. Для наполнения базы метаданных собрать базовые параметры: размер изображения в байтах, формат, crc32, md5, высоту, длину, отношение длины изображения к высоте.

3. Для каждого изображения сделать дополнительный расчёт следующих данных:

- таблицу цветоделения (с рядом упрощений);

- таблицу особенностей по результатам ridge и edge detection (как их рассчитывать отдельная тема).

- расчёт дополнительных особенностей (специалисты по компьютерному зрению знают)

Что характерно именно для изображений, мы относительно легко определить что некоторые изображения несхожи промеж собой, а также оценить сходство изображений при сравнении к 1 к 1.

Далее выберем наши критерии оценки и ограничений на выявление дубликатов:

1. Не рассматриваются как дубликаты изображения перевёрнутые на 90, 180 градусов.

2. Изображения полные дубликаты можно выявить по crc32 с доп. проверкой выявленных через md5

3. Изображение дубликат должно обладать близкими к оригинальному изображению пропорциями. Это отношение длины изображения к его высоте, которое у двух потенциальных дубликатов должно быть идентичным или же находится в пределах заданного отклонения.

4. Таблица цветоделения изображения дубликата должна соответствовать или же должна быть приближена в пределах заданного отклонения.

5. Таблица особенностей включая относительное расположение особенности, характер и размерность должны соответствовать у сравниваемых изображений.

Здесь, конечно, описано не всё, кроме того для данной задачи, с учётом объёмов крайне важна скорость работы алгоритмов, но, тем не менее решения есть.

Технически под эту задачу просятся HBase, Hypertable, Hadoop.

В значительной степени решение можно упростить группируя изображения кластерами и проводя покластерный анализ каждого.

Большой недостаток вышеописанного лежит в области объёмов метаданных – они огромны. Плюс в возможности дальнейшей группировки по множеству различных критериев.

В дополнение добавлю что можно вспомнить решение задачки с расстоянием Левенштейна которую я приводил ранее. Если мы попарно сравниваем изображение A и B, а потом изображение B и C и в обоих случаях мы можем замерить численным образом разницу между ними, то вопрос в том как организовать последующее сравнение изображений так чтобы учитывать предыдущие результаты.

Признаюсь правда сам я распознаванием изображений только интересовался, но сам такого не делал, хотя и смотрел n-ное число инструментов для этой цели.

Сейчас же, в эпоху Amazon EC2 решить эту задачку можно даже за относительно скромные деньги и время. Вот распознавание информации в изображениях от IBM iMars мне интересно куда больше, будущее именно за этим.


Окт 27 2008

Про индийское ИТ в период кризиса

Tag: размышленияivbeg @ 12:21 пп

Подборка статей по тому что происходит с ИТ в Индии:

В чём то ситуация в Индии похожа с Россией. Рупия упала к доллару на 20% с начала года, но учитывая величину их ИТ рынка компании от этого можут даже немного выигрывать – съэкономить на зарплатах. Но что характерно, пока разговоры идут только о замораживании найма и сокращении расходов, но не людей.

А вот у Росии есть и существенное отличие, значительная часть ИТ была ориентирована на корпоративный и гос. сектор. Чует моё сердце ФЦП будут резать, равно как и многие бюджеты. Например, уже точно понятно что будут резать московский бюджет, подозреваю что схожая ситуация будет со всеми регионами которым надо будет реструктурировать долги. То что расходы федерального бюджета будут сокращать лично я уже считаю неизбежным.

Правда, при всём при этом, расходы на ИТ всегда были несравнимыми с соц. расходами или на строительство/поддержку строительства к примеру, но на общем фоне начнуть сокращать и их тоже.

Кстати, интересно будет как изменится конкуренция между российскими офшорными разработчиками и индийскими. Если зарплаты в Российском ИТ секторе упадут, то у EPAM’а или Luxoft’а появится больше возможностей по найму специалистов. С другой стороны, покуда основная концентрация ИТ бизнеса в Москве и Питере, плюс всё ухудшающаяся инфраструктура в этих городах – дороги и экология, то  может резко упасть число желающих сюда переезжать, плюс девальвация рубля к доллару при том что цены на недвижимость и её аренду всё ещё держатся высокоми –   как следствие всего этого, дефицит кадров готовых работать в офисе «сжатие рынка» за счёт небольших компаний.

Пока в любом случае это гадание на кофейной гуще. Всё будет понятно к концу года, всего два месяца осталось.


Окт 27 2008

ДНК глазами кодера

Tag: почти несерьёзноivbeg @ 10:56 дп

Вот тут сравнение ДНК с программирование DNA seen trough eyes of coder

Многие понятия генной инженерии понятно объяснены аналогами из прогарммирования.

Хотя и выглядит всё это страшновато если представить себе что геном когда-нибудь будет собираться мэйкфайлами или их аналогами.


Окт 26 2008

Ссылки на 26.10.2008

Tag: linksivbeg @ 7:28 дп
  • Zivios Open-Source Enterprise management – управление предприятием с использованием открытого кода. Интересный проект с пока ещё скромными возможностями, но кодом под GPL3, подробной документацией и сообществом. Проект очень молодой, похоже месяца два всего, но может статься интересным для небольших компаний.
  • Распознавать дубликаты изображений научились в поиске по картинкам Яндекса. Например, пример. Вообще же решение подобной задачи должно быть весьма нетривиальным как по объёмам данных, так и по точности алгоритма. То что Яндекс это реализовали – бесспорно впечатляет. Навскидку, похоже что там используют алгоритмы оценки пропорций и цветовой гаммы на первом этапе и только лишь оставшиеся после подобных фильтров анализируют промеж собой, в любом случае это сильная штука хотя бы тем что уже запущена в работу. Надеюсь они продвинутся и в смысловом распознавании изображений.
  • Cnews пишут про Великий российский файервол, а лично я не верю в состоятельность этой затеи. Вне зависимости хорошо или плохо, но за 10 лет он успеет устареть и определённо не сможет решить ни вопросов фильтрации HTTPS, ни перехвата скрытых каналов в информационных потоках. Будут блокировать обычне прокси сервера – появятся прокси сервера работающие через P2P, скрытыми каналами в потоковом видео и уйма прочих трюков. Иначе говоря ценность подобного проекта только в том что как можно меньшее число людей знает о его существовании, да и то не особенно.
  • У New York Times cерьёзные проблемы, долг в $1.1 миллиарда долларов – это куда больше чем имеющаяся наличность в $46 миллионов долларов.
  • Джеери Янг как лучший руководитель для Yahoo. Человек который полностью уверен в собственной непогрешимости даже отказавшись от предложения Microsoft за $31 за акцию и, как я понимаю, он говорит это на полном серьёзе.
  • Шаблоны интерфейсов на сайте книги «Designing Interfaces»
  • Подборка типовых интерфейсов на Blinkintercative. Много хороших примеров того как должны быть реализованы веб формы, навигация и так далее.
  • Московские классификаторы – Служба ведения общегородских справочников и реестров города Москвы. Довольно удобный сайт с федеральными и городскими справочниками при возможности искать по нему и получать их в структурированном формате.
  • Огромный деревянный человекоподобный робот – а точнее роботизированный костюм. Создатель его явно очень увлечённый и талантливый человек.
  • Carrot2: open source framework for building clustering engines – проект по созданию поисковиков с кластерным интерфейсом а ля Vivisimo или Nigma. Причём лицензия ближе к BSD, коммерческое использование допускается. Можно посмотреть заодно и демо.

Окт 24 2008

Про болтовню в блогах и работу

Tag: из жизниivbeg @ 6:03 пп

Максим Крайнов очень по делу пишет о том как болтовня в онлайне мешает трудоустройству.

Я в свою очередь готов подтвердить что это всё именно так. Общаясь со знакомыми HR’ами практически все они говорили что если получают резюме человека на более менее серьёзную должность, то обязательно смотрят хотя бы его блог, профиль на Моём Круге и LinkedIn если они есть.


Следующая страница »


Rambler's Top100