微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
Kylin

开源OLAP+数据可视化工具–For Apache Kylin

开源OLAP+数据可视化工具–For Apache Kylin
关键字:caravel、olap、kylin、数据可视化 经过我和好友Rocky一段时间的修改和调试,现已将初版的Caravel For Kylin上传至Github,供大家使用,如有发现任何的问题,可通过本博客或github联系我们。 GitHub地址: https://git...

2年前 (2016-06-13) 9791℃ 8喜欢

Kylin

Apache Kylin中使用Streaming Table构建准实时Cube

Apache Kylin中使用Streaming Table构建准实时Cube
关键字:kylin、streaming table Kylin从1.5版本开始,引入了Streaming Table,目的是为了减低OLAP分析的延时(比如Druid、ElasticSearch都支持实时数据流)。 Streaming Table周期性的从Kafka中读取数据,根...

2年前 (2016-06-13) 6555℃ 8喜欢

Hive

Hive2.0中HiveServer2的WEB UI界面

Hive2.0中HiveServer2的WEB UI界面
Hive从2.0版本开始,为HiveServer2提供了一个简单的WEB UI界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

2年前 (2016-06-01) 6697℃ 7喜欢

Hive

Hive中使用ORC遇到的protobuf版本问题

Hive中使用ORC遇到的protobuf版本问题
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce 来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查...

2年前 (2016-05-30) 3121℃ 1喜欢

Hive

HiveServer2的高可用-HA配置

HiveServer2的高可用-HA配置
关键字:hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery 在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多: 1. 在应用端不用部署Hadoop和Hive客户端; 2....

2年前 (2016-05-27) 10885℃ 15喜欢

Hive

Hive使用Spark on Yarn作为执行引擎

Hive使用Spark on Yarn作为执行引擎
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...

2年前 (2016-05-27) 7458℃ 13喜欢

Kylin

Apache Kylin v1.5.2 发布日志

Apache Kylin v1.5.2 发布日志
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。 下载Apache Kylin v1.5.2源代码及二进制安装包, 请访问下载页面(http://...

2年前 (2016-05-27) 2601℃ 0喜欢

Spark

Spark的RDD原理以及2.0特性的介绍

Spark的RDD原理以及2.0特性的介绍
注:本文由王联辉在高可用架构群分享,本文转载自高可用架构「 ArchNotes 」 王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop ...

2年前 (2016-05-20) 7363℃ 13喜欢

Spark

Spark性能优化指南——高级篇

Spark性能优化指南——高级篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优...

2年前 (2016-05-16) 6136℃ 13喜欢

Spark

Spark性能优化指南——基础篇

Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者   前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式...

2年前 (2016-05-16) 5788℃ 22喜欢

Hive

Saiku结合Hive做大数据多维数据分析

Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。 注:Saiku社区版(Saiku CE)的下载地址为: http://communit...

2年前 (2016-05-13) 8145℃ 13喜欢

Kylin

Apache Kylin原理学习之Cube的创建与Build

Apache Kylin原理学习之Cube的创建与Build
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来...

2年前 (2016-05-12) 6906℃ 19喜欢