本文转自Apache Kylin公众号apachekylin.
Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验。
Superset 提供了两种分析数据源的方式:
1. 用户可以以单表形式直接查询多种数据源,包括 Presto、Hive...
7年前 (2018-03-27) 59071℃
105喜欢
关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节):
本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。
一、关于数据仓库数据模型
1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人...
7年前 (2018-01-11) 42858℃
162喜欢
注:本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html
综述
如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标...
7年前 (2017-11-13) 25974℃
32喜欢
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。
作为一个多年从事数据相关的开发者,深受“...
7年前 (2017-08-03) 33752℃
98喜欢
本文转载自公众号 DBAplus社群 , 作者:谢麟炯
谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。
海量数据实...
7年前 (2017-07-17) 38062℃
92喜欢
Kettle是一款国外开源的ETL以及简单的调度工具。
官网:http://www.pentaho.com/product/data-integration
之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...
8年前 (2017-02-09) 30899℃
38喜欢
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。
V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL;
其中,对于事实表数据量非常小(&l...
8年前 (2016-10-11) 23761℃
27喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
离线计算
实时计算
多维分析OLAP
机器学习
Ad-Hoc查询
数据可视化
上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...
8年前 (2016-07-21) 29752℃
47喜欢
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...
8年前 (2016-07-13) 22451℃
15喜欢
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。
原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的...
9年前 (2016-06-20) 177528℃
80喜欢
关键词:caravel、olap、kylin、数据可视化
Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。官网地址为: http://ai...
9年前 (2016-06-06) 67849℃
92喜欢
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。
1.Apache Kylin是什么?
在现在的大数据时代,越来越多的企...
9年前 (2016-05-26) 31101℃
19喜欢
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。
注:Saiku社区版(Saiku CE)的下载地址为:
http://communit...
9年前 (2016-05-13) 26797℃
26喜欢
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表:
事实表可能有以下字段:
天、来...
9年前 (2016-05-12) 22594℃
28喜欢
关于Kylin的介绍和使用请参考之前的文章
《分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例》
Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译...
9年前 (2016-05-03) 39059℃
22喜欢