微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

 分类:Hive

Impala安装配置–RPM方式

Impala安装配置–RPM方式
关于Impala Impala是SQL ON Hadoop框架,和它类似的有Presto、Drill等,但它和Hive区别较大,请参考下面的介绍。 下面的介绍来自百度百科: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的H...

8年前 (2017-06-07) 28983℃ 50喜欢

轻松配置Hive On Tez

轻松配置Hive On Tez
关于Apche Tez,请自行搜索,较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。 我的环境: hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

8年前 (2017-06-06) 29336℃ 10喜欢

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

8年前 (2016-12-06) 23047℃ 41喜欢

几个连接HiveServer的客户端界面工具

几个连接HiveServer的客户端界面工具
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

8年前 (2016-09-28) 107100℃ 63喜欢

Java写本地ORC文件(Hive2 API)

Java写本地ORC文件(Hive2 API)
Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。 本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。 代码如下: package com.lxw1234.hive.orc; import org....

8年前 (2016-07-25) 32157℃ 19喜欢

Hive2.0中HiveServer2的WEB UI界面

Hive2.0中HiveServer2的WEB UI界面
Hive从2.0版本开始,为HiveServer2提供了一个简单的WEB UI界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

9年前 (2016-06-01) 26899℃ 21喜欢

Hive中使用ORC遇到的protobuf版本问题

Hive中使用ORC遇到的protobuf版本问题
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce 来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查...

9年前 (2016-05-30) 18855℃ 3喜欢

HiveServer2的高可用-HA配置

HiveServer2的高可用-HA配置
关键字:hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery 在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多: 1. 在应用端不用部署Hadoop和Hive客户端; 2....

9年前 (2016-05-27) 67253℃ 73喜欢

Hive使用Spark on Yarn作为执行引擎

Hive使用Spark on Yarn作为执行引擎
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...

9年前 (2016-05-27) 43634℃ 38喜欢

Saiku结合Hive做大数据多维数据分析

Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。 注:Saiku社区版(Saiku CE)的下载地址为: http://communit...

9年前 (2016-05-13) 26847℃ 26喜欢

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index
关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,...

9年前 (2016-04-08) 40158℃ 62喜欢

更高的压缩比,更好的性能–使用ORC文件格式优化Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive
关键字:orc、index、hive Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的...

9年前 (2016-04-05) 53094℃ 56喜欢

记录一下Hive2.0安装配置遇到的问题

记录一下Hive2.0安装配置遇到的问题
关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

9年前 (2016-03-31) 12670℃ 8喜欢

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

[一起学Hive]之二十-自定义HiveServer2的用户安全认证
关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候...

9年前 (2016-01-15) 33084℃ 19喜欢