Продолжая тему участников Netflix Prize и алгоритмов вокруг конкурса — ещё один интересный блог A Beautiful WWW и несколько публикаций в нём посвящённых Ensemble Learning:
ETech Presentation on Ensemble Machine Learning Ensemble Machine Learning Tutorial
Смысл тот же о чём я писал в прошлом посте о размышлениях превосходстве данных над алгоритмами. [...]
Anand Rajaraman (Ананд Раджаман) интересно пишет о том как использование большего числа данных «бьёт» более продвинутые алгоритмы More data usually beats better algorithms
Он приводит хороший пример с Adwords и его сравнение с Overture. По сути аукцион рекламы в Adwords не был чем-то революционно новым, в Overture это появилось гораздо раньше, важне [...]
В догонку к тому о чём я хотел упомнуть на РИТ’е, но уже нехватило времени — раскрытии государством информации и результатам этого раскрытия.
В del.icio.us пользователь duchessanna собрал(-а) несколько десятков закладок на gov_mashups. Практически все они основаны на _открытой информации публикуемой государством в общем доступе_, а также общественному мониторингу активностей государственных ведомств
Например, [...]
Ранее я рассуждал о применимости Hadoop и HBase для корпоративного рынка, и вот подтверждение моих мыслей.
В презентации которая была на саммите Hadoop в марте представители Facebook рассказывали про Hive — data warehouse на основе Hadoop’а.
Меня более всего впечатлили цифры — 22 террабайта плюс 200 гигабайт новых данных в день. При том что [...]
Я ранее уже писал о конкуренции между технологическими и информационными компаниями и, развивая тему, в чём же специфика этой конкуренции. Далее пойдут размышения, которые многим могут показаться банальными, но тем не менее.
На мой взгляд корень этой конкуренции в том что ИТ, в глобальном тренде, находится в период перелома от ценности технологий к [...]
Ссылки:
Simhash — шинглопринтинг в виде реализации на C Methods and apparatus for estimating similarity — патент Google от 2 января 2007 года Detecting near duplicates in big data (PDF) применение методов выявления близких подобий для _очень больших_ объёмов документов. Shingleprinting code for estimating document similarity — документы и код в [...]
Oklahoma Leaks Tens of Thousands of Social Security Numbers, Other Sensitive Data — сегодняшний анлоязычный WTF жжот. Этот пример можно вносить в учебники для веб-программистов как нельзя публиковать данные в сети. Не буду раскрывать подробностей — смотрите по ссылке. Farecast sold in $75 million deal — пример успешно созданной и проданной компании-стартапа ориентированной [...]
Китайский проект city8.com, фактически аналог Google Street view, но для китайских городов.
Вообще у китайцев много интересного делается (и копипастится), другое дело что языковой барьер мешает даже узнать об этом.
А сам сервис интерен и тем что реализует множество социальных возможностей — рекомендовать места. Обсуждать где рядом можно поесть и так [...]
Пример сайта сделанного хорошо как по идее, так и по исполнению — http://msk.rusavtobus.ru/
Рассчитывают маршруты передвижения по Москве учитывая _Весь_ общественный транспорт включая метро, троллейбусы, трамваи, автобусы и т.д. Буквально, то о чём я рассуждал в нескольких постах ранее о идеальном маршрутном сервисе. Юзабилити, также, на хорошем уровне. Серьёзных огрехов я не заметил, а [...]
На РИТ я буду докладывать на Success Story 2008 про наш проект Енот Поискун, в теме «Как работать с государством?» — как начиналось, во что превратилась в чём «специфика» и тому подобное. Пока в планах было провести на РИТ весь понедельник, на счёт всего вторника пока уверенности нет, возможно часть.
Буду рад познакомится со [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- apps4russia (1)
- blogging (61)
- couchdb (3)
- data.gov.ru (273)
- datasets (115)
- diagramming (11)
- e-Government (993)
- eGov (1012)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (218)
- opensource (57)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (16)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- whenyouknowthereasonswhy (1)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (13)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (21)
- госзаказ (173)
- задачки (1)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (116)
- открытые данные (70)
- поиск (93)
- почти несерьёзно (16)
- размышления (128)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (46)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (1016)
- юзабилити (25)
- юмор (15)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


