分类：Hive

Impala安装配置–RPM方式

关于Impala Impala是SQL ON Hadoop框架，和它类似的有Presto、Drill等，但它和Hive区别较大，请参考下面的介绍。下面的介绍来自百度百科： Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的H...

8年前 (2017-06-07) 29133℃ 50喜欢

关于Apche Tez，请自行搜索，较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。我的环境： hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

8年前 (2017-06-06) 29552℃ 10喜欢

注：本文转自公众号大数据杂谈（BigdataTina2016）本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...

8年前 (2017-03-02) 20926℃ 39喜欢

在实际业务场景下，经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。一般常用的做法有： MapReduce中使用1个Reduce来生成； Hive中使用row_number分析函数来生成，其实也是1个Reduce；借助HBase或Redis或Z...

8年前 (2016-12-06) 23181℃ 41喜欢

Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具，包括：SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

9年前 (2016-09-28) 107342℃ 63喜欢

Hive2.0以后，使用了新的API来读写ORC文件（https://orc.apache.org）。本文中的代码，在本地使用Java程序生成ORC文件，然后加载到Hive表。代码如下： package com.lxw1234.hive.orc; import org....

9年前 (2016-07-25) 32597℃ 19喜欢

Hive从2.0版本开始，为HiveServer2提供了一个简单的WEB UI界面，界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

9年前 (2016-06-01) 27006℃ 21喜欢

Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce 来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的节省HDFS存储资源，而且对数据的查...

9年前 (2016-05-30) 18952℃ 3喜欢

关键字：hiveserver2、ha、高可用、high availability、ZooKeeper Service Discovery 在生产环境中使用Hive，强烈建议使用HiveServer2来提供服务，好处很多： 1. 在应用端不用部署Hadoop和Hive客户端； 2....

9年前 (2016-05-27) 67613℃ 73喜欢

Hive从1.1之后，支持使用Spark作为执行引擎，配置使用Spark On Yarn作为Hive的执行引擎，首先需要注意以下两个问题： Hive的版本和Spark的版本要匹配；具体来说，你使用的Hive版本编译时候用的哪个版本的Spark，那么就需要使用相同版本的Spark...

9年前 (2016-05-27) 43899℃ 38喜欢

前面介绍了将Saiku和Kylin结合起来做OLAP多维分析，Saiku也支持多种其他数据源，如MySQL，JDBC等，本文介绍将Saiku和Hive结合起来使用的方法，并解决期间遇到的问题。注：Saiku社区版(Saiku CE)的下载地址为： http://communit...

9年前 (2016-05-13) 27001℃ 26喜欢

关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比，更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式，它不但有着很高的压缩比，节省存储和计算资源之外，还通过一个内置的轻量级索引，...

9年前 (2016-04-08) 40378℃ 62喜欢

关键字：orc、index、hive Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的...

9年前 (2016-04-05) 53260℃ 56喜欢

关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单，和之前的版本没什么区别，具体可参考：http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

9年前 (2016-03-31) 12740℃ 8喜欢

关键字：hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能，非常实用，但如果在使用HiveServer2时候，不注意安全控制，将非常危险，因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如：在配置HiveServer2的时候...

9年前 (2016-01-15) 33228℃ 19喜欢