分类：Hive

[一起学Hive]之四-Hive的安装配置

其实Hive的安装配置应该放在第二章来介绍，晚了些，希望对Hive初学者有用。三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包下载地址：http://archive.apache.org/dis...

10年前 (2015-06-05) 20758℃ 24喜欢

在前面的文章中，介绍了可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）。本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础...

10年前 (2015-06-03) 53242℃ 66喜欢

Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapRedu...

10年前 (2015-06-03) 73687℃ 79喜欢

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻...

10年前 (2015-06-02) 39506℃ 86喜欢

Hive是支持索引的，但基本没用过，只做了下试验。为什么大家都不用，肯定有它的弊端。 Hive索引机制：在指定列上建立索引，会产生一张索引表（Hive的一张物理表），里面的字段包括，索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量; 在执行索引字段查询时候，首先额...

10年前 (2015-05-08) 27748℃ 57喜欢

Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

10年前 (2015-05-05) 22778℃ 27喜欢

GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。 Hive版本为 apache-hive-0.13.1 数据准备： 2015-03,2...

10年前 (2015-04-24) 84677℃ 188喜欢

继续学习这四个分析函数。注意：这几个函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章） Hive版本为 apache-hive-0.13.1 数据准备： cookie1,2015-04-10 10:00:02,url2 cookie1,2015-0...

10年前 (2015-04-24) 160720℃ 178喜欢

这两个序列分析函数不是很常用，这里也介绍一下。注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章） Hive版本为 apache-hive-0.13.1 数据准备： d1,user1,1000 d1,user2,2000 d1,user3...

10年前 (2015-04-24) 62264℃ 85喜欢

本文中介绍前几个序列函数，NTILE,ROW_NUMBER,RANK,DENSE_RANK，下面会一一解释各自的用途。 Hive版本为 apache-hive-0.13.1 注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）数据准备： co...

10年前 (2015-04-24) 72447℃ 108喜欢

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备 CREATE E...

10年前 (2015-04-23) 100243℃ 226喜欢

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如： hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

10年前 (2015-04-17) 9216℃ 3喜欢

依赖hadoop,hive相关包，源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

10年前 (2015-04-17) 22213℃ 20喜欢

对同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表；而多重insert也只扫描一次，但应为要insert到多个分区，所以做了很多其他的事情，导致消耗的时间非常长；希望大家在开发的时候多测，多试！ ...

10年前 (2015-04-17) 17399℃ 6喜欢

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

10年前 (2015-04-16) 48502℃ 154喜欢