标签：hive

轻松配置Hive On Tez

关于Apche Tez，请自行搜索，较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。我的环境： hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

7年前 (2017-06-06) 28210℃ 10喜欢

Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

在实际业务场景下，经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。一般常用的做法有： MapReduce中使用1个Reduce来生成； Hive中使用row_number分析函数来生成，其实也是1个Reduce；借助HBase或Redis或Z...

7年前 (2016-12-06) 22309℃ 41喜欢

Hive

几个连接HiveServer的客户端界面工具

Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具，包括：SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

8年前 (2016-09-28) 104606℃ 63喜欢

Hive

Java写本地ORC文件(Hive2 API)

Hive2.0以后，使用了新的API来读写ORC文件（https://orc.apache.org）。本文中的代码，在本地使用Java程序生成ORC文件，然后加载到Hive表。代码如下： package com.lxw1234.hive.orc; import org....

8年前 (2016-07-25) 30074℃ 19喜欢

Hive

Hive2.0中HiveServer2的WEB UI界面

Hive从2.0版本开始，为HiveServer2提供了一个简单的WEB UI界面，界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

8年前 (2016-06-01) 26265℃ 21喜欢

Hive

Hive中使用ORC遇到的protobuf版本问题

Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce 来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的节省HDFS存储资源，而且对数据的查...

8年前 (2016-05-30) 18150℃ 3喜欢

Hive

HiveServer2的高可用-HA配置

关键字：hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery 在生产环境中使用Hive，强烈建议使用HiveServer2来提供服务，好处很多： 1. 在应用端不用部署Hadoop和Hive客户端； 2....

8年前 (2016-05-27) 65476℃ 73喜欢

Hive

Hive使用Spark on Yarn作为执行引擎

Hive从1.1之后，支持使用Spark作为执行引擎，配置使用Spark On Yarn作为Hive的执行引擎，首先需要注意以下两个问题： Hive的版本和Spark的版本要匹配；具体来说，你使用的Hive版本编译时候用的哪个版本的Spark，那么就需要使用相同版本的Spark...

8年前 (2016-05-27) 42297℃ 38喜欢

Hive

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比，更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式，它不但有着很高的压缩比，节省存储和计算资源之外，还通过一个内置的轻量级索引，...

8年前 (2016-04-08) 38162℃ 62喜欢

Hive

更高的压缩比，更好的性能–使用ORC文件格式优化Hive

关键字：orc、index、hive Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的...

8年前 (2016-04-05) 51473℃ 56喜欢

Hive

记录一下Hive2.0安装配置遇到的问题

关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单，和之前的版本没什么区别，具体可参考：http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

8年前 (2016-03-31) 12244℃ 8喜欢

Hive

连接Hive的客户端界面工具–SQuirrel SQL Client

关键字：Hive客户端、界面、SQuirrel SQL Client 刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client，试了一下，用起来还行，在这里记录一下安装及使用方法。 SQuirrel SQL Client是一个用Java写的数...

9年前 (2015-09-29) 59869℃ 30喜欢

Hive

Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表

关键字：Hive存储过程、PL/HQL、HQL/SQL、MySQL 通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中，经常会有需要将Hive和RDBMS中的数据结合分析，比如：往RDBMS中写入Hive分析的审计信息；从RDBMS中获取一些维表的数据...

9年前 (2015-09-21) 15565℃ 14喜欢

Hive

Hive存储过程HQL/SQL（一）–hplsql命令行

关键字：Hive存储过程、HQL/SQL、hplsql命令行、PL/HQL Command Line PL/HQL主要是通过命令行工具来执行一个SQL查询语句或者是一个SQL脚本。进入hplsql-0.3.11，执行./ hplsql即可显示命令行的用法： [liuxiaowe...

9年前 (2015-09-17) 35504℃ 20喜欢

Hive

Hive存储过程系列文章

在Hive中实现存储过程–HQL/SQL Hive中创建和调用存储过程及自定义函数 Hive存储过程HQL/SQL（一）–hplsql命令行 Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表持续更新中。。。您可以关...

9年前 (2015-09-16) 37431℃ 30喜欢