Ранее я рассуждал о применимости Hadoop и HBase для корпоративного рынка, и вот подтверждение моих мыслей.
В презентации которая была на саммите Hadoop в марте представители Facebook рассказывали про Hive – data warehouse на основе Hadoop’а.
Меня более всего впечатлили цифры – 22 террабайта плюс 200 гигабайт новых данных в день. При том что учитывая распределённую модель Hadoop оборудование для кластера может быть любым, нет необходимости в закупке дорогостоящих мейнфреймов.
Разумеется для полноценного BI нехватает MDX, веб интерфейса и многих других возможностей, но что-то мне подсказывает что до них недолго ждать осталось. Как только появится первый MDX совместимый или близкий по возможностям движок поверх Hadoop’а, то рынок BI может существенно преобразится. Особенно в части маштабных проектов на десятки гигабайт данных.
Ссылка на презентацию:
- Hive: Joydeep Sen Sarma / Ashish Thusoo, Facebook – Slides
Начитавшись про Hadoop, HBase и MapReduce я всё таки решился и по шагам их установил, проверил тестами из поставки + собственной небольшим срезом собственной коллекции метаданных, около 100 MB суммарно.
Как итог могу сказать то, что сама задумка и реализация весьма толковая. Причём несмотря на то что сейчас эта связка сейчас в основном используется для работы с поисковыми индексами и для исследований и обработки огромных массивов метаданных, лично я вижу ещё как минимум ещё несколько серьёзных областей применения для корпоративного рынка.
Чуть ли не самая очевидная – это BI. Если поверх HBase интегрировать один из OLAP движков, например, тот же Mondarian. В этом случае базы данных для DataWarehouse могут быть полностью перенесены в Hadoop + HBase, а формирование отчётов будет идти по кластеру из обычных компьютеров или достаточно слабых серверов.
Но это и только один из примеров. Точно также применение можно найти для анализа и обработки серверных логов (головная боль крупных провайдеров), биллинга и других задач.
Иначе говоря, моё мнение, технология созрела до корпоративного рынка и осталось совсем чуть-чуть когда начнут появляться первые решения.
Коллеги, присматриваюсь к BI решениям для двух потенциальных проектов. Не для Енота, но тоже во благо человечества. Материалы и сам смотрю да читаю, но ежели кто сможет или дать ссылки помочь буду благодарен. По одному нужно лично мне, по другому попросили помочь.
В первом случае нужно малобюджетное и, желетельно, opensource решение в пределах 0-5000 USD и без ограничений на число потенциальных пользователей. Пока приглядел лишь Pentaho и JasperSoft. И те и те выпустили недавно по новой версии продукта, но попробовать пока ещё не удалось. Если кто-нибудь уже пробовал, поделитесь впечатлениями, плз. А может и другие интересные есть.
В втором случае нужно коммерчески поддерживаемое решение и тоже BI. Соответственно тут важны цена развёртывания, стоимость лицензий, цена за пользовательское подключение и цена за рабочее место разработчика. Я в своё время активно смотрел решений MS в части Microsoft Analysis Services и потом уже SQL Server 2005 и Business Scorecard Manager 2005. Дурного слова не скажу, потому несмотря на то что SQL Server 2005 ме в своё время потрепал немало нервов снижением производительности по сравнению с MS SQL 2000, но, по гамбургскому счёту это была не проблема продукта и сам продукт вполне себе достойный. Один из моих любимых продуктов в линейке MS, сколь бы я не критиковал другие их продукты. Как бы то ни было, я знаю что ещё есть Oracle BI, Business Objects и Cognos, но «пощупать» мне лично довелось только Business Objects про остальные сейчас читаю.