Ссылки на 10.12.2009: Проекты Microsoft
Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:
- Codename Dallas - http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
- Microsoft Academic Search — http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов — по журналам и конференциям
- eGov 2.0 kit — http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна — CMS или полуфабрикат для госсайтов.
- EntityCube — http://entitycube.research.microsoft.com/. Проект по выявлению «именованных сущностей», различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.
Кстати в Research же занимаются ещё одной наработкой/небольшой библиотекой — Site Analyzer http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx
Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.
Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или «объектной карты».
Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.
Поделиться в соц. сетях
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (927)
- eGov (946)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (198)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (51)
- открытые данные (10)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (945)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability






