Посты в категории: razmyishleniya

Проблема работы с неструктурированными данными

Не так давно читая материалы по Apache UIMA (Unstructured Information Management applications) я удивлялся зачем нужно такое переусложнение? Да и форма подачи документации UIMA, простоты не подразумевает, для любых частных задач проще создать частный анализатор и использовать его, а UIMA — это большая и сложная система. Разработки из IBM

Читать больше

Geotagging результаты

Результаты по завершившейся за ночь задачке. Анализировалось суммарно 10 000 сайтов в .ru и .su.

1. Всего удалось определить регион для 9594 сайтов. Итого полнота (recall) ~ 96%

2. Из них 60% — это Москва. Московских сайтов 6043 от общего числа.

3. Около 1100 веб сайтов были определены только до уровня региона, что

Читать больше

Формы общения и формализация

Прошлый раз я писал о разнице в восприятии между электронным письмом и голосом, на сей раз будет тема отличий между общением электронными письмами, голосом и общением вживую. Многое из того о чём я буду писать может показаться очевидным и так и должно быть. С классификации и систематизации очевидного начинается поиск

Читать больше

Полнота модели vs. частные решения

Чем больше я читаю исследований по работе с информацией в самых разных формах — алгоритмы поиска, разпознавания музыки, голоса и изображений, тем более убеждаюсь в верности того утверждения что больше данных, действительно, бьёт лучшие алгоритмы.

При том что во множестве исследований проводятся весьма интересные эксперименты, а также выводятся весьма точные алгоритмы,

Читать больше

Как находить нужную информацию в сети

Поскольку практически постоянно я лично ищу нужные мне материалы, темы и исследования со времением всё это накопилось в набор рецептов которые могу порекомендовать тем кто хочет не просто периодически читать о чём-то интересующем, но создать условия что не они искали информацию, а чтобы она находила их.

Коллекция рецептов которые использую я:

1.

Читать больше

Geotagging — заблуждения и размышления

Углубившись в тему ещё немного убеждаюсь что в ней как и во многих других классификационных задачах популярны заблуждения приводящие к неверным выводам.

Так назначение гео-меток — это не только поиск географических названий, это ещё и анализ принципиальной и смысловой возможности этого назначения.

Рассмотрим пример. Василий Пупкин блоггер недавно переехавший из Москвы

Читать больше

Исправление опечаток. Понимание подходов

Недавно, заинтересовавшись темой опечаток, искал материалы исследований по этой теме. Мне на глаза попался документ исследования по исправлению опечаток в географических названиях и по словарю http://rcdl2007.pereslavl.ru/papers/paper_25_v1.pdf и ряд зарубежных на ту же тему в основном использующие метод N-Gram для этих целей.

Подход любопытный,

Читать больше

Информационные потоки, скрытая информация и связность

Предупрежу заранее — это будет длинный текст, по принципам работы с информацией, причём не последний из этой темы поскольку за один раз всего не охватить.

Рассмотрим некоторые вопросы:

  • Как мы думаем когда мы думаем?
  • Влияет ли то о чём мы думаем на то как мы это делаем?

Слух: Интел может купить Vmware и некоторые сопутствующие размышления

Вначале новость на bloomberg.com о том что возможно что кто-то (кто не сказано) заинтересован в покупке Vmware, а потом продолжение слуха у Alexandro Perilli в virtualization.info и важное уточнение — покупателем может выступить Интел.

Имеет смысл вспомнить что у Интел уже есть место в совете директоров Vmware и

Читать больше

Powerset и корпоративный поиск

Сегодня Powerset запустили свой поиск в публичный доступ и он сразу же перестал работать, похоже лёг под нагрузкой.

Любопытно что не все предрекают PowerSet’у столь уж безоблачное будущее в Интернет-поиске, например, интересные обсуждения в блоге Ананда Раджамана о том что больше переспектив у такого подхода на рынке корпоративного поиска

Читать больше

Яндекс.Метрика