关键字:Spark RDD、Spark RDD partition、Spark RDD dependencies、Spark RDD preferredLocations、Spark RDD compute、Spark RDD partitioner
一、学习Spark RDD
...
10年前 (2015-06-30) 18606℃
13喜欢
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct
map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
hadoop fs -cat /t...
10年前 (2015-06-30) 86035℃
127喜欢
关键字:Hive整合HBase、Hive操作HBase表
十二、Hive整合HBase,操作HBase表
HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。
关于Hive操作HB...
10年前 (2015-06-30) 40698℃
17喜欢
关键字: Hive 优化、HQL 优化、Hive数据倾斜
十一、Hive SQL的优化
本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。
其中大部分是我之前发过的博客文章,这里整理了下。
11.1 使用分...
10年前 (2015-06-29) 55858℃
29喜欢
关键字:Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross Join
Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS...
10年前 (2015-06-25) 87862℃
35喜欢
关键词:Hive MapJoin、Hive Common Join、Hive Reduce Join、Hive Join
九、Hive中Join的原理和机制
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完...
10年前 (2015-06-25) 35732℃
46喜欢
关键字:Hive SELECT、ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY、Hive子查询、Hive虚拟列
八、Hive的查询语句SELECT
在所有的数据库系统中,SELECT语句是使用最多,也最复杂的一块,Hive中的查询语句SELEC...
10年前 (2015-06-24) 34775℃
13喜欢
Hive中可以修改表的字段顺序。
如果发现Hive中创建的表字段顺序有问题,那么可以使用ALTER TABLE命令来修改,语法为:
ALTER TABLE table_name CHANGE col_old_name col_new_name column_type AFTER ...
10年前 (2015-06-23) 26141℃
21喜欢
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Executor去执行任务。
这么理解没错,我搭建的Spark集群情况是这样:
15台Da...
10年前 (2015-06-23) 17347℃
11喜欢
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。
在SparkSQL中,目前还不支持自动或者手...
10年前 (2015-06-19) 19651℃
14喜欢
Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。
在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必...
10年前 (2015-06-17) 35970℃
15喜欢
Hive提供的几种用户交互接口中,最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。
七、使用Hive命令行
7.1 Hive Command Lin...
10年前 (2015-06-16) 47432℃
23喜欢
在Hive中建好表之后,需要将数据加载进来,以便做后续查询分析,本文介绍向Hive表中加载数据的几种方式。
6.1 建表时候直接指定
如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在...
10年前 (2015-06-15) 21571℃
29喜欢
前面文章介绍了Hive中是支持分区的。
关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行...
10年前 (2015-06-15) 60820℃
39喜欢
同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。
在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。
四、Hive的视图和...
10年前 (2015-06-15) 55225℃
24喜欢