Не так давно, где-то с месяц назад в процессе экспериментов над алгоритмом Скиура — я таки нашёл для него первое практическое полезное применение, помимо, частного использования. Впрочем о проекте для которого Скиур будет использоваться я ещё напишу когда он будет готов, сейчас же о другом — о том как переводить полу-структурированную информацию из веб-страницы [...]
Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:
Codename Dallas - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные [...]
Я тут постепенно отлаживаю свои алгоритмы построения «объектных карт сайтов». Постепенно — поскольку приходится учитывать сотни разных параметров и заниматься микроклассификацией. Что весьма увлекательно и в равной степени рутинно. Часть алгоритма — это определение CMS сайта для анализа его ссылочной структуры. Собственно главным является определение ссылочной структуры, а знание CMS в этом предполагается что помогает.
[...]
Недавно обнаружил в блоге у Mencius Moldbug довольно интересное мнение про Wolfram Alpha. Жаль не прочитал его ранее, там есть целый ряд интересных мыслей.
Но, пожалуй, одна из самых интересных в предсказуемости результатов в WA. Фактически он назsвает Wolfram Alpha — «control interface» и сравнивает с Google который таким не является поскольку результат [...]
Недавно наткнулся на чрезвычайно интересное исследование — TLDR: Interfaces for large-scale online discussion spaces.
Интересное оно тем что авторы решили провести анализ того как же люди реагируют на публикации в соц. сетях. Структуру и характер их комментариев, продолжительность дискуссии и так далее.
Причём с помощью ряда алгоритмов определяется где идёт аргументированная дискуссия, где троллинг [...]
Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.
В результате всех экспериментов со сжатием файлов получилась следующая таблица результатов.
Объём Процентов Без сжатия 70745088 100 OpenDocument используя OpenOffice 20511664 28,99 OpenDocument после OpenOffice с дожатием 10231845 14,46 b2xtranslator* 11266825 15,93 b2xtranslator с дожатием 10937971 15,46 MS Word 2007 20145429 28,48 MS Word 2007 с дожатием 14249582 20,14 * В случае b2xtranslator оценки могуть [...]
На днях я немного поэкспериментировал с TinEye , сервисом от IDEE Inc по поиску похожих изображений. Фактически — это аналог антиплагиата для изображений. Сервис интересный и полезный и я решил опробовать его в деталях дабы понять принципы работы алгоритма.
Для начала было взято изображение которое точно детектируется TinEye — это картинка с сайта Министерства [...]
Ранее я упоминал про недавнее исследование из Яндекса — Автоматическая классификация веб сайтов (в PDF) и что лично я несогласен с подходом использующим классификацию по ключевым словам. Главное — это то что у Яндекса как и других поисковых систем, на самом деле, куда больше информации о сайтах, пользователях и их взаимодействии чем просто страницы [...]
MNIST dataset of handwritten digits — большой массив данных (датасет) написанных вручную цифр и сравнений алгоритма по их идентификации NEC Animal Dataset — датасет изображений фигурок животных в разных позах и ракурсах. ManyEyes Datasets — подборка датасетов от IBM ManyEyes «Автоматическая классификация web-сайтов» PDF — исследование из Яндекса по классификации веб [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


