其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。
三、Hive的安装配置
3.1 环境需求
Hadoop Client
Mysql
3.2 下载并解压Hive0.13.1安装包
下载地址:http://archive.apache.org/dis...
10年前 (2015-06-05) 20668℃
24喜欢
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。
本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础...
10年前 (2015-06-03) 53079℃
66喜欢
Hive函数大全–完整版
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapRedu...
10年前 (2015-06-03) 73436℃
79喜欢
1. Hive是什么
Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。
这是来自官方的解释。
简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻...
10年前 (2015-06-02) 39349℃
86喜欢
Hive是支持索引的,但基本没用过,只做了下试验。
为什么大家都不用,肯定有它的弊端。
Hive索引机制:
在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量;
在执行索引字段查询时候,首先额...
10年前 (2015-05-08) 27576℃
57喜欢
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...
10年前 (2015-05-05) 22642℃
27喜欢
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。
Hive版本为 apache-hive-0.13.1
数据准备:
2015-03,2...
10年前 (2015-04-24) 84395℃
188喜欢
继续学习这四个分析函数。
注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
Hive版本为 apache-hive-0.13.1
数据准备:
cookie1,2015-04-10 10:00:02,url2
cookie1,2015-0...
10年前 (2015-04-24) 160291℃
178喜欢
这两个序列分析函数不是很常用,这里也介绍一下。
注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
Hive版本为 apache-hive-0.13.1
数据准备:
d1,user1,1000
d1,user2,2000
d1,user3...
10年前 (2015-04-24) 61968℃
85喜欢
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。
Hive版本为 apache-hive-0.13.1
注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
数据准备:
co...
10年前 (2015-04-24) 72241℃
108喜欢
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。
今天先看几个基础的,SUM、AVG、MIN、MAX。
用于实现分组内所有和连续累积的统计。
Hive版本为 apache-hive-0.13.1
数据准备
CREATE E...
10年前 (2015-04-23) 99689℃
226喜欢
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。
比如:
hive> select 1 from dual;
Total MapReduce jobs = 1
Launching Job 1 out of...
10年前 (2015-04-17) 9137℃
3喜欢
依赖hadoop,hive相关包,
源码见附件。
add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar;
CREATE TEMPORARY FUNCTION encodeba...
10年前 (2015-04-17) 22127℃
20喜欢
对同一张表的union all 要比多重insert快的多,
原因是hive本身对这种union all做过优化,即只扫描一次源表;
而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长;
希望大家在开发的时候多测,多试!
...
10年前 (2015-04-17) 17274℃
6喜欢
一、 控制hive任务中的map数:
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...
10年前 (2015-04-16) 48231℃
154喜欢