微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

标签:hive

Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

5个月前 (12-06) 2416℃ 7喜欢

Hive

几个连接HiveServer的客户端界面工具

几个连接HiveServer的客户端界面工具
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

7个月前 (09-28) 4705℃ 3喜欢

Hive

Java写本地ORC文件(Hive2 API)

Java写本地ORC文件(Hive2 API)
Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。 本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。 代码如下: package com.lxw1234.hive.orc; import org....

9个月前 (07-25) 2564℃ 2喜欢

Hive

Hive2.0中HiveServer2的WEB UI界面

Hive2.0中HiveServer2的WEB UI界面
Hive从2.0版本开始,为HiveServer2提供了一个简单的WEB UI界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

11个月前 (06-01) 3911℃ 6喜欢

Hive

Hive中使用ORC遇到的protobuf版本问题

Hive中使用ORC遇到的protobuf版本问题
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce 来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查...

11个月前 (05-30) 1779℃ 1喜欢

Hive

HiveServer2的高可用-HA配置

HiveServer2的高可用-HA配置
关键字:hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery 在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多: 1. 在应用端不用部署Hadoop和Hive客户端; 2....

11个月前 (05-27) 4582℃ 5喜欢

Hive

Hive使用Spark on Yarn作为执行引擎

Hive使用Spark on Yarn作为执行引擎
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...

11个月前 (05-27) 4714℃ 9喜欢

Hive

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index
关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,...

1年前 (2016-04-08) 4176℃ 9喜欢

Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive
关键字:orc、index、hive Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的...

1年前 (2016-04-05) 5436℃ 9喜欢

Hive

记录一下Hive2.0安装配置遇到的问题

记录一下Hive2.0安装配置遇到的问题
关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

1年前 (2016-03-31) 2818℃ 3喜欢

Hive

连接Hive的客户端界面工具–SQuirrel SQL Client

连接Hive的客户端界面工具–SQuirrel SQL Client
关键字:Hive客户端、界面、SQuirrel SQL Client 刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client,试了一下,用起来还行,在这里记录一下安装及使用方法。 SQuirrel SQL Client是一个用Java写的数...

2年前 (2015-09-29) 19539℃ 16喜欢

Hive

Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表

Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表
关键字:Hive存储过程、PL/HQL、HQL/SQL、MySQL 通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中,经常会有需要将Hive和RDBMS中的数据结合分析,比如: 往RDBMS中写入Hive分析的审计信息; 从RDBMS中获取一些维表的数据...

2年前 (2015-09-21) 4112℃ 4喜欢

Hive

Hive存储过程HQL/SQL(一)–hplsql命令行

Hive存储过程HQL/SQL(一)–hplsql命令行
关键字:Hive存储过程、HQL/SQL、hplsql命令行、PL/HQL Command Line PL/HQL主要是通过命令行工具来执行一个SQL查询语句或者是一个SQL脚本。 进入hplsql-0.3.11,执行./ hplsql即可显示命令行的用法: [liuxiaowe...

2年前 (2015-09-17) 6870℃ 9喜欢

Hive

Hive存储过程系列文章

Hive存储过程系列文章
在Hive中实现存储过程–HQL/SQL Hive中创建和调用存储过程及自定义函数 Hive存储过程HQL/SQL(一)–hplsql命令行 Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表     持续更新中。。。 您可以关...

2年前 (2015-09-16) 7967℃ 6喜欢

Hive

Hive中创建和调用存储过程及自定义函数

Hive中创建和调用存储过程及自定义函数
关键字:Hive 存储过程 前面的文章《在Hive中实现存储过程–HQL/SQL》中介绍了如何使用HPL/SQL在Hive中实现存储过程,执行类似Oracle PL/SQL的功能。 一般的业务场景是数据开发人员开发好一个存储过程,然后周期性的调用,传入不同的参数即可。 本文继续介...

2年前 (2015-09-16) 3632℃ 3喜欢