Посты в категории: %d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b

OData: Open Data Protocol


Оказывается Microsoft сделали и предложили протокол OData — Open Data Protocol используемый для раскрытия данных в машиночитаемой форме.

Подробнее можно почитать здесь http://www.odata.org

А вот его полное описание —
There is a vast amount of data available today and

Читать больше

Ссылки на 10.12.2009: Проекты Microsoft

Что радует, у Microsoft появляется всё больше более чем интересных проектов и, если абстрагироваться от провала Висты и нынешнего давления на покупателя чтобы переходили на W7, то есть о чём любопытном упомянуть:

  • Codename Dallas  — http://pinpoint.microsoft.com/en-US/Dallas. Проект/сервис для поддержки разработчиков желающих распространять и использовать большие массивы данных. Включает как бесплатные

    Читать больше

Мнение про Wolfram Alpha и Semantic Web

Недавно обнаружил в блоге у Mencius Moldbug довольно интересное мнение про Wolfram Alpha. Жаль не прочитал его ранее, там есть целый ряд интересных мыслей.

Но, пожалуй, одна из самых интересных в предсказуемости результатов в WA. Фактически он назsвает Wolfram Alpha — «control interface» и сравнивает с Google который таким

Читать больше

Презентация с iCamp 2009: Автоматическая геоклассификация сайтов

Буду публиковать тематическими группами презентации с iCamp Russia 2009. Поскольку темы разные, то отдельными постами.

Website Geotargeting (russian)Читать больше

Эксперименты с TinEye

На днях я немного поэкспериментировал с  TinEye , сервисом от IDEE Inc по поиску похожих изображений. Фактически — это аналог антиплагиата для изображений. Сервис интересный и полезный и я решил опробовать его в деталях дабы понять принципы работы алгоритма.

Для начала было взято изображение которое точно детектируется TinEye — это

Читать больше

Анализ веб-страниц, выявление новостей и не только

Не так давно, где-то с месяц назад в процессе экспериментов над алгоритмом Скиура — я таки нашёл для него первое практическое полезное применение, помимо, частного использования. Впрочем о проекте для которого Скиур будет использоваться я ещё напишу когда он будет готов, сейчас же о другом — о том как

Читать больше

Алгоритмы, анализ Рунета и не только

Я тут постепенно отлаживаю свои алгоритмы построения «объектных карт сайтов». Постепенно — поскольку приходится учитывать сотни разных параметров и заниматься микроклассификацией.  Что весьма увлекательно и в равной степени рутинно. Часть алгоритма — это определение CMS сайта для анализа его ссылочной структуры. Собственно главным является определение ссылочной

Читать больше

Автоматический анализ онлайн дискуссий

Недавно наткнулся на чрезвычайно интересное исследование — TLDR: Interfaces for large-scale online discussion spaces.

Интересное оно тем что авторы решили провести анализ того как же люди реагируют на публикации в соц. сетях. Структуру и характер их комментариев, продолжительность дискуссии и так далее.

Причём с помощью ряда алгоритмов определяется где идёт аргументированная

Читать больше

Сжатие документов. Итоговая сравнительная таблица

В результате всех экспериментов со сжатием файлов получилась следующая таблица результатов.

Объём Процентов
Без сжатия 70745088 Читать больше

Автоматическая классификация сайтов: возможные подходы

Ранее я упоминал про недавнее исследование из Яндекса — Автоматическая классификация веб сайтов (в PDF) и что лично я несогласен с подходом использующим классификацию по ключевым словам.  Главное — это то что у Яндекса как и других поисковых систем, на самом деле, куда больше информации о сайтах, пользователях и

Читать больше

Яндекс.Метрика