注:本文转自公众号 大数据杂谈 (BigdataTina2016)
本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...
8年前 (2017-03-02) 20867℃
39喜欢
Kettle是一款国外开源的ETL以及简单的调度工具。
官网:http://www.pentaho.com/product/data-integration
之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...
8年前 (2017-02-09) 30934℃
38喜欢
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。
第九章:我的数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
离线:比如,每天将前一天的数据提...
8年前 (2017-01-23) 19014℃
37喜欢
再次调研这个东西,是为了满足下面的需求:
一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计;
看到这个需求,肯定想到搜索,那么就是ElasticSearch了。但ES对SQL支持太弱了,因此想使用CrateD...
8年前 (2017-01-11) 18088℃
11喜欢
注:本文转自微信公众号 大数据杂谈 BigdataTina2016
2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容...
8年前 (2016-12-23) 16086℃
29喜欢
数阅,是一个数据管理、OLAP分析与可视化平台。
数据源与数据管理
支持连接已有数据源:
MySQL、Postgres、Oracle、sqlite、MSSQL、Redshift;
Hive、Impala、SparkSQL、Presto;
Druid、Kylin;
...
8年前 (2016-12-12) 45963℃
47喜欢
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
为什么Spark比MapReduce快。
使用SparkSQL代替Hive,更快的运行SQL。
使用Kafka完成数据的一次收集,多次消费架构。
自己可以...
8年前 (2016-11-29) 17197℃
37喜欢
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;
你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具;
你已...
8年前 (2016-11-23) 15319℃
20喜欢
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
0和Hadoop2.0的区别;
MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...
8年前 (2016-11-16) 20817℃
46喜欢
导读:
第一章:初识Hadoop
第二章:更高效的WordCount
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
第五章:快一点吧,我的SQL
第六章:一夫多妻制
第七章:越来越多的分析任务
第八章:我的数据要实时
第九章:我的数据要对外
第...
8年前 (2016-11-10) 67804℃
213喜欢
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。
V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL;
其中,对于事实表数据量非常小(&l...
8年前 (2016-10-11) 23866℃
27喜欢
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla
之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。
这两天找到...
8年前 (2016-09-29) 24883℃
8喜欢
注:本文转载自公众号AdMaster
作为技术驱动的营销数据公司,AdMaster每天处理超过100亿的数据请求,每天对1000亿数据进行上千种维度计算,每天增加超过5T数据量,为来自各行业的客户提供7*24小时数据应用服务。在这样领先的技术布局下,无论是数据实时...
8年前 (2016-09-06) 8415℃
8喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
离线计算
实时计算
多维分析OLAP
机器学习
Ad-Hoc查询
数据可视化
上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...
8年前 (2016-07-21) 29819℃
47喜欢
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...
9年前 (2016-07-13) 22510℃
15喜欢