微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

 分类:Hive

[一起学Hive]之四-Hive的安装配置

[一起学Hive]之四-Hive的安装配置
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。 三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包 下载地址:http://archive.apache.org/dis...

10年前 (2015-06-05) 20668℃ 24喜欢

[一起学Hive]之三–Hive中的数据库(Database)和表(Table)

[一起学Hive]之三–Hive中的数据库(Database)和表(Table)
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。 本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础...

10年前 (2015-06-03) 53079℃ 66喜欢

[一起学Hive]之二–Hive函数大全-完整版

[一起学Hive]之二–Hive函数大全-完整版
Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapRedu...

10年前 (2015-06-03) 73436℃ 79喜欢

[一起学Hive]之一–Hive概述,Hive是什么

[一起学Hive]之一–Hive概述,Hive是什么
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻...

10年前 (2015-06-02) 39349℃ 86喜欢

Hive索引

Hive索引
Hive是支持索引的,但基本没用过,只做了下试验。 为什么大家都不用,肯定有它的弊端。 Hive索引机制: 在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量; 在执行索引字段查询时候,首先额...

10年前 (2015-05-08) 27576℃ 57喜欢

Hive on Spark解析

Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

10年前 (2015-05-05) 22642℃ 27喜欢

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。 注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) Hive版本为 apache-hive-0.13.1 数据准备: cookie1,2015-04-10 10:00:02,url2 cookie1,2015-0...

10年前 (2015-04-24) 160291℃ 178喜欢

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) Hive版本为 apache-hive-0.13.1 数据准备: d1,user1,1000 d1,user2,2000 d1,user3...

10年前 (2015-04-24) 61968℃ 85喜欢

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 Hive版本为 apache-hive-0.13.1 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) 数据准备: co...

10年前 (2015-04-24) 72241℃ 108喜欢

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备 CREATE E...

10年前 (2015-04-23) 99689℃ 226喜欢

Hive本地mr

Hive本地mr
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。 比如:   hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

10年前 (2015-04-17) 9137℃ 3喜欢

base64加密解密的hive udf函数

base64加密解密的hive udf函数
依赖hadoop,hive相关包, 源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

10年前 (2015-04-17) 22127℃ 20喜欢

hive中合理使用union all与multi insert

hive中合理使用union all与multi insert
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长; 希望大家在开发的时候多测,多试! ...

10年前 (2015-04-17) 17274℃ 6喜欢

hive优化之——控制hive任务中的map数和reduce数

hive优化之——控制hive任务中的map数和reduce数
一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

10年前 (2015-04-16) 48231℃ 154喜欢