微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:Hive

[一起学Hive]之一–Hive概述,Hive是什么

[一起学Hive]之一–Hive概述,Hive是什么
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻...

2年前 (2015-06-02) 7127℃ 23喜欢

Hive索引

Hive索引
Hive是支持索引的,但基本没用过,只做了下试验。 为什么大家都不用,肯定有它的弊端。 Hive索引机制: 在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量; 在执行索引字段查询时候,首先额...

2年前 (2015-05-08) 4761℃ 21喜欢

Hive on Spark解析

Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

2年前 (2015-05-05) 2933℃ 6喜欢

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。 注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) Hive版本为 apache-hive-0.13.1 数据准备: cookie1,2015-04-10 10:00:02,url2 cookie1,2015-0...

2年前 (2015-04-24) 14265℃ 24喜欢

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) Hive版本为 apache-hive-0.13.1 数据准备: d1,user1,1000 d1,user2,2000 d1,user3...

2年前 (2015-04-24) 5569℃ 8喜欢

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 Hive版本为 apache-hive-0.13.1 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) 数据准备: co...

2年前 (2015-04-24) 9009℃ 25喜欢

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备 CREATE E...

2年前 (2015-04-23) 8520℃ 42喜欢

Hive本地mr

Hive本地mr
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。 比如:   hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

2年前 (2015-04-17) 1563℃ 0喜欢

base64加密解密的hive udf函数

base64加密解密的hive udf函数
依赖hadoop,hive相关包, 源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

2年前 (2015-04-17) 2980℃ 4喜欢

hive中合理使用union all与multi insert

hive中合理使用union all与multi insert
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长; 希望大家在开发的时候多测,多试! ...

2年前 (2015-04-17) 1564℃ 2喜欢

hive优化之——控制hive任务中的map数和reduce数

hive优化之——控制hive任务中的map数和reduce数
一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

2年前 (2015-04-16) 4180℃ 22喜欢