Я тут почитал обсуждения вокруг моего прошлого поста по работе с регулярными выражениями и упоминания про FPGA и не только и вспомнился мне мой личный опыт по работе с FPGA и вообще решением сложных задач. К тому же NDA у меня давно уже истёк так что можно рассказывать.
Много лет тому назад я работал в [...]
Что-то давно я не писал про технологии и алгоритмы.
А тем временем, на днях, представители Яндекса выложили в открытый доступ ряд open source проектов — http://clubs.ya.ru/company/replies.xml?item_no=30753
Самый интересный из которых, на мой взгляд — это PIRE, https://github.com/dprokoptsev/pire Perl Incompatible Regular Expressions Library.
Весьма интересная штука для тех кто когда либо прогонял через шаблоны [...]
Для тех кто может быть ещё не знает Google купили компанию Metaweb — создателей FreeBase и Gridworks.
Теперь Gridworks называется Google Refine и доступно по другому адресу https://code.google.com/p/google-refine/
Gridworks, а теперь Google Refine — это один из мощнейших и инструментов по очистке данных. Ему можно на вход подать данные в CSV формате и далее различными [...]
Хотя на сайте MS Research много интересных материалов, но, на самом деле отправной точкой во всём что касается извлечения информации из веб-сайтов, классификации, аннотирования и так далее — это страничка профессора Bing Liu http://www.cs.uic.edu/~liub/ из Института Иллинойса Чикаго.
Помимо того что он автор книги Web Data Mining http://www.cs.uic.edu/~liub/WebMiningBook.html где охватывает почти все темы, но [...]
Оказывается в Microsoft Research есть проект Website Structure Understanding and It’s applications с весьма впечатляющей коллекцией материалов по этой теме.
Конечно, не они единственные занимаются этой темой — у меня довольно большая подборка материалов самых разных исследователей, но там их особенно много.
Правда явно делают акцент на анализе форумов и других дискуссионных площадок, что в [...]
Появился исходный код Gridworks — http://code.google.com/p/freebase-gridworks/ , а также всяческие интересные примеры там же, в Wiki проекта. Этой такой инструмент по очистке и преобразованию данных сделанный внутри Metaweb’а, компании разработчика проекта Freebase.
И инструмент уж больно интересный и полезный, особенно учитывая что он теперь и с открытым кодом однако я лично попал на баг с [...]
Какое-то время назад я эту тему поднимал в посте «Распознавание национальности по имени» — http://ivbeg.livejournal.com/119528.html
Но там было нечто вроде результатов экспериментов, сейчас же затрону тему систематизации того как можно обрабатывать ФИО и какую информацию можно на основе ФИО извлечь.
Предыстория этого текста исключительно практическая, поскольку я очень много с данными работаю, то [...]
Шаг-за шагом объектные и безсхемные базы данных превращаются из экзотики в нечто общепринятое.
На nosql-database.org обнаружилась большая подборка ссылок и материалов по этой теме.
Лично я нашёл там для себя много нового и теперь знаю какие есть альтернативы уже используемого мной MongoDB.
На мой взгляд самые интересные это:
Инфогрид — http://infogrid.org/ HyperGraphDb [...]
На TechCrunch почти год назад была пара интересных статей RSS is dying и Speeding up RSS.
В первой рассказывается про то как Twitter вытесняет RSS из повседневного использования, а вторая про протоколы PubSubHub и SUP.
PubSubHub — это инициатива Брэда Фицпатрика с открытой спецификаций и открытым исходным кодом http://code.google.com/p/pubsubhubbub/. Где главная идея [...]
Оказывается Microsoft сделали и предложили протокол OData — Open Data Protocol используемый для раскрытия данных в машиночитаемой форме.
Подробнее можно почитать здесь http://www.odata.org
А вот его полное описание —
There is a vast amount of data available today and data is now being collected and stored at a rate [...]
Microsoft Translate
Рубрики
- BI (3)
- CEP (1)
- IBM (13)
- Novell (6)
- WTF (1)
- apple (3)
- blogging (61)
- couchdb (3)
- data.gov.ru (250)
- datasets (104)
- diagramming (11)
- e-Government (925)
- eGov (944)
- google (33)
- gtd (5)
- links (65)
- linux (19)
- microsoft (47)
- not so wtf yet (3)
- opengovdata.ru (197)
- opensource (56)
- productivity (2)
- saas (4)
- second life (2)
- security (6)
- semweb (15)
- sun (13)
- virtualization (16)
- vista (2)
- web (223)
- web 2.0 (108)
- wikileaks (1)
- yahoo (11)
- Без рубрики (4)
- Енот Поискун (17)
- Общественное благо (12)
- алгоритмы (73)
- алгоритмы (51)
- аналитика (19)
- антисео (5)
- бывает и такое (8)
- виртуализация (21)
- вопросы (20)
- госзаказ (172)
- идеи (29)
- из жизни (95)
- инновации (27)
- интересные проекты (7)
- информация (108)
- книги (2)
- метапост (1)
- открытое государство (49)
- открытые данные (8)
- поиск (93)
- почти несерьёзно (16)
- размышления (127)
- расшифровка реальности (10)
- робототехника (1)
- руководство проектами (3)
- скиур (19)
- социальные сети (45)
- социоранк (9)
- стандарты (22)
- стоит почитать (21)
- футуристика (1)
- электронное государство (943)
- юзабилити (25)
- юмор (14)
Метки
антиспам госзакупки гослюди госуслуги датасеты дебаты извлечение информации инновации кузьминов метаданные навальный открытое государство открытые данные поиск почти без иронии публичность раскрытие информации расшифровка реальности систематизация социоранг социоранк стартапы форматы файлов футуристика #belyh #rucamp #socamp 94-ФЗ antispam apps4russia icamp icamp2009 md5 ogp open government searchme semweb sha1 ssl usability


