Ссылки на 10.12.2009: Проекты Microsoft

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  — http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные так и платные данные в большом количестве.
  • Microsoft Academic Search — http://academic.research.microsoft.com. Поисковик по научным работам в разных областях науки, в основном, околокомпьютерных. Мне понравилось наличие разных полезных срезов — по журналам и конференциям
  • eGov 2.0 kit — http://egov.codeplex.com/. Движок на базе Sharepoint’а по построению сайтов для eGov. При том что мне не особо нравится реализация, сама идея довольно разумна — CMS или полуфабрикат для госсайтов.
  • EntityCube — http://entitycube.research.microsoft.com/. Проект по выявлению «именованных сущностей», различных осмысленных фактов о персонах и организациях. На мой взгляд он тесно пересекается идеологически и информационно с Powerset’ом купленным Microsoft недавно и интересно как дальше будут развиваться события. Будут ли их объединять в гибрид, например.

Кстати в Research  же занимаются ещё одной наработкой/небольшой библиотекой — Site Analyzer  http://research.microsoft.com/en-us/downloads/58e8953e-3626-4994-bf95-19039e978223/default.aspx

Проектом это назвать рановато, но возможность структурировать веб-страницы форумов, определять шаблоны URL’ов туда уже закладывается. А это уже ровно то же самое чем я занимаюсь, только подходы разные.

Они используют извлечение признаков, кластеризацацию и анализ коэффициентов сходства, в данном случае, коэффициентов Жаккара, а я использую модель предварительного выявления типовых шаблонов и построения карты микропризнаков или «объектной карты».

Кстати, для анализа HTML в Site Analyzer’е свой парсер который кроме обычной информации об элементе DOM-дерева фиксирует поля о его глубине, числе потомков и так далее. Я знал, я знал что не один я об этом ломал голову, что приятно.

About This Author

Яндекс.Метрика