Посты в категории: %d0%b0%d0%bb%d0%b3%d0%be%d1%80%d0%b8%d1%82%d0%bc%d1%8b

Много разных полезных API

Для тех кто планирует делать проекты по открытым данным и не только у меня накопилось какое-то количество API которыми не терпиться поделиться.

API этих много и разных и все они сделаны для обогащения и улучшения данных. А теперь когда появились такие проекты как Mashape появилась еще и возможность публиковать их в

Читать больше

Техническое: про регулярные выражения и Яндекс PIRE

Что-то давно я не писал про технологии и алгоритмы.

А тем временем, на днях, представители Яндекса выложили в открытый доступ ряд open source проектов — http://clubs.ya.ru/company/replies.xml?item_no=30753

Самый интересный из которых, на мой взгляд — это PIRE, https://github.com/dprokoptsev/pire Perl Incompatible Regular Expressions Library.

Весьма интересная штука для тех кто когда либо прогонял

Читать больше

Продолжение по поводу анализа структуры сайтов

Хотя на сайте MS Research много интересных материалов, но, на самом деле отправной точкой во всём что касается извлечения информации из веб-сайтов, классификации, аннотирования и так далее — это страничка профессора Bing Liu http://www.cs.uic.edu/~liub/ из Института Иллинойса Чикаго.

Помимо того что он автор книги Web Data Mining http://www.cs.uic.edu/~liub/WebMiningBook.html где охватывает

Читать больше

FreeBase Gridworks released

Появился исходный код Gridworks — http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.

И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично

Читать больше

Совсем без SQL’ные базы данных

Шаг-за шагом объектные и безсхемные базы данных превращаются из экзотики в нечто общепринятое.

На nosql-database.org обнаружилась большая подборка ссылок и материалов по этой теме.

Лично я нашёл там для себя много нового и теперь знаю какие есть альтернативы уже используемого мной MongoDB.

На мой взгляд самые интересные это:

Пространство решений

Я тут почитал обсуждения вокруг моего прошлого поста по работе с регулярными выражениями и упоминания про FPGA и не только и вспомнился мне мой личный опыт по работе с FPGA и вообще решением сложных задач. К тому же NDA у меня давно уже истёк так что можно рассказывать.

Много лет тому

Читать больше

Google Refine — новое название для Gridworks

Для тех кто может быть ещё не знает Google купили компанию Metaweb — создателей FreeBase и Gridworks.

Теперь Gridworks называется Google Refine и доступно по другому адресу https://code.google.com/p/google-refine/

Gridworks, а теперь Google Refine — это один из мощнейших и инструментов по очистке данных. Ему можно на вход подать данные в CSV формате

Читать больше

Понимание структуры веб-сайтов

Оказывается в Microsoft Research есть проект Website Structure Understanding and It’s applications с весьма впечатляющей коллекцией материалов по этой теме.

Конечно, не они единственные занимаются этой темой — у меня довольно большая подборка материалов самых разных исследователей, но там их особенно много.

Правда явно делают акцент на анализе форумов и других дискуссионных

Читать больше

Систематизация распознавания пола и этноса по ФИО

Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» — http://ivbeg.livejournal.com/119528.html

Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.

Предыстория этого текста исключительно практическая, поскольку я очень много с

Читать больше

Техническое: Про ускорение RSS и протоколы SUP и PubSubHub

На TechCrunch почти год назад была пара интересных статей RSS is dying и Speeding up RSS.

В первой рассказывается про то как Twitter вытесняет RSS из повседневного использования, а вторая про протоколы PubSubHub и SUP.

PubSubHub — это инициатива Брэда Фицпатрика с открытой спецификаций и открытым исходным кодом http://code.google.com/p/pubsubhubbub/.

Читать больше

Яндекс.Метрика