关于Apche Tez,请自行搜索,较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。
我的环境:
hadoop-2.6.0-cdh5.8.3
apache-hive-2.1.1-bin
下载Apache Tez
wget http://www-us....
8年前 (2017-06-06) 29399℃
10喜欢
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。
一般常用的做法有:
MapReduce中使用1个Reduce来生成;
Hive中使用row_number分析函数来生成,其实也是1个Reduce;
借助HBase或Redis或Z...
8年前 (2016-12-06) 23074℃
41喜欢
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...
8年前 (2016-09-28) 107156℃
63喜欢
Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。
本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。
代码如下:
package com.lxw1234.hive.orc;
import org....
9年前 (2016-07-25) 32288℃
19喜欢
Hive从2.0版本开始,为HiveServer2提供了一个简单的WEB UI界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。
https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...
9年前 (2016-06-01) 26936℃
21喜欢
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce 来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查...
9年前 (2016-05-30) 18893℃
3喜欢
关键字:hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery
在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多:
1. 在应用端不用部署Hadoop和Hive客户端;
2....
9年前 (2016-05-27) 67355℃
73喜欢
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:
Hive的版本和Spark的版本要匹配;
具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...
9年前 (2016-05-27) 43684℃
38喜欢
关键字: orc、index、row group index、bloom filter index
之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,...
9年前 (2016-04-08) 40220℃
62喜欢
关键字:orc、index、hive
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的...
9年前 (2016-04-05) 53132℃
56喜欢
关键字: hive2.0
本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。
Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm
下载并解压apache-hi...
9年前 (2016-03-31) 12685℃
8喜欢
关键字:Hive客户端、界面、SQuirrel SQL Client
刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client,试了一下,用起来还行,在这里记录一下安装及使用方法。
SQuirrel SQL Client是一个用Java写的数...
9年前 (2015-09-29) 62219℃
30喜欢
关键字:Hive存储过程、PL/HQL、HQL/SQL、MySQL
通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中,经常会有需要将Hive和RDBMS中的数据结合分析,比如:
往RDBMS中写入Hive分析的审计信息;
从RDBMS中获取一些维表的数据...
9年前 (2015-09-21) 16109℃
14喜欢
关键字:Hive存储过程、HQL/SQL、hplsql命令行、PL/HQL Command Line
PL/HQL主要是通过命令行工具来执行一个SQL查询语句或者是一个SQL脚本。
进入hplsql-0.3.11,执行./ hplsql即可显示命令行的用法:
[liuxiaowe...
9年前 (2015-09-17) 36346℃
20喜欢
在Hive中实现存储过程–HQL/SQL
Hive中创建和调用存储过程及自定义函数
Hive存储过程HQL/SQL(一)–hplsql命令行
Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表
持续更新中。。。
您可以关...
9年前 (2015-09-16) 39103℃
30喜欢