微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:数据仓库/数据库

开源ETL工具Kettle初试–远程执行任务

开源ETL工具Kettle初试–远程执行任务
Kettle是一款国外开源的ETL以及简单的调度工具。 官网:http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...

1个月前 (02-09) 1179℃ 7喜欢

华扬数据自助分析系统V1.0

华扬数据自助分析系统V1.0
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。 V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL; 其中,对于事实表数据量非常小(&l...

5个月前 (10-11) 3764℃ 19喜欢

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续
关键字:互联网、大数据、数据仓库、数据平台、架构 导读: 整体架构 数据采集 离线计算 实时计算 多维分析OLAP 机器学习 Ad-Hoc查询 数据可视化 上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...

8个月前 (07-21) 5042℃ 17喜欢

一站式用户自助数据接入与分析平台

一站式用户自助数据接入与分析平台
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...

8个月前 (07-13) 3522℃ 7喜欢

开源数据可视化工具(For Apache Kylin)使用说明

开源数据可视化工具(For Apache Kylin)使用说明
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。 原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的...

9个月前 (06-20) 13974℃ 24喜欢

Saiku结合Hive做大数据多维数据分析

Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。 注:Saiku社区版(Saiku CE)的下载地址为: http://communit...

10个月前 (05-13) 4734℃ 9喜欢

Apache Kylin原理学习之Cube的创建与Build

Apache Kylin原理学习之Cube的创建与Build
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来...

10个月前 (05-12) 3724℃ 10喜欢

使用Saiku+Kylin构建多维分析OLAP平台

使用Saiku+Kylin构建多维分析OLAP平台
关于Kylin的介绍和使用请参考之前的文章 《分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例》 Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译...

11个月前 (05-03) 7899℃ 10喜欢

从数据仓库到大数据,数据平台这25年是怎样进化的?

从数据仓库到大数据,数据平台这25年是怎样进化的?
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...

1年前 (2016-03-23) 2554℃ 4喜欢

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践
关键字:大数据平台、机器学习 贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...

1年前 (2016-02-16) 6485℃ 25喜欢

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...

1年前 (2016-01-15) 9203℃ 14喜欢

数据仓库中历史拉链表的更新方法

数据仓库中历史拉链表的更新方法
关键字:数据仓库、极限存储、历史拉链表、更新 在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》, 使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。 本文中假设: 数据仓库中订单历史表的刷新频率为一天,当...

2年前 (2015-08-27) 10910℃ 27喜欢