lxw1234@qq.com的文章

学习Spark RDD

关键字：Spark RDD、Spark RDD partition、Spark RDD dependencies、Spark RDD preferredLocations、Spark RDD compute、Spark RDD partitioner 一、学习Spark RDD ...

10年前 (2015-06-30) 18528℃ 13喜欢

Spark

Spark算子：RDD基本转换操作(1)–map、flatMap、distinct

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinct map 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 hadoop fs -cat /t...

10年前 (2015-06-30) 85736℃ 127喜欢

Hive

[一起学Hive]之十三-Hive整合HBase，操作HBase表

关键字：Hive整合HBase、Hive操作HBase表十二、Hive整合HBase，操作HBase表 HBase是被设计用来做k-v查询的，但有时候，也会遇到基于HBase表的复杂统计，写MR很不方便。Hive考虑到了这点，提供了操作HBase表的接口。关于Hive操作HB...

10年前 (2015-06-30) 40568℃ 17喜欢

Hive

[一起学Hive]之十二-Hive SQL的优化

关键字： Hive 优化、HQL 优化、Hive数据倾斜十一、Hive SQL的优化本章只是从HQL层面介绍一下，日常开发HQL中需要注意的一些优化点，不涉及Hadoop层面的参数、配置等优化。其中大部分是我之前发过的博客文章，这里整理了下。 11.1 使用分...

10年前 (2015-06-29) 55192℃ 29喜欢

Hive

[一起学Hive]之十一-Hive中Join的类型和用法

关键字：Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross Join Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS...

10年前 (2015-06-25) 87644℃ 35喜欢

Hive

[一起学Hive]之十-Hive中Join的原理和机制

关键词：Hive MapJoin、Hive Common Join、Hive Reduce Join、Hive Join 九、Hive中Join的原理和机制笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完...

10年前 (2015-06-25) 35618℃ 46喜欢

Hive

[一起学Hive]之九-Hive的查询语句SELECT

关键字：Hive SELECT、ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY、Hive子查询、Hive虚拟列八、Hive的查询语句SELECT 在所有的数据库系统中，SELECT语句是使用最多，也最复杂的一块，Hive中的查询语句SELEC...

10年前 (2015-06-24) 34633℃ 13喜欢

Hive

Hive中修改表的字段顺序

Hive中可以修改表的字段顺序。如果发现Hive中创建的表字段顺序有问题，那么可以使用ALTER TABLE命令来修改，语法为： ALTER TABLE table_name CHANGE col_old_name col_new_name column_type AFTER ...

10年前 (2015-06-23) 26040℃ 21喜欢

Spark

Spark读取HDFS文件，任务本地化(NODE_LOCAL)

Spark也有数据本地化的概念（Data Locality），这和MapReduce的Local Task差不多，如果读取HDFS文件，Spark则会根据数据的存储位置，分配离数据存储最近的Executor去执行任务。这么理解没错，我搭建的Spark集群情况是这样： 15台Da...

10年前 (2015-06-23) 17242℃ 11喜欢

Spark

Spark SQL中实现Hive MapJoin

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用Map Task扫描大表的同时，完成join，这对join的性能提升非常多。在SparkSQL中，目前还不支持自动或者手...

10年前 (2015-06-19) 19550℃ 14喜欢

Hive

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数

Spark1.4发布，除了重量级的SparkR，其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列文章。在我们的数据平台中，90%以上的离线分析任务都是使用Hive实现，其中必...

10年前 (2015-06-17) 35881℃ 15喜欢

Hive

[一起学Hive]之八-使用Hive命令行

Hive提供的几种用户交互接口中，最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。七、使用Hive命令行 7.1 Hive Command Lin...

10年前 (2015-06-16) 47338℃ 23喜欢

Hive

[一起学Hive]之七-向Hive表中加载数据

在Hive中建好表之后，需要将数据加载进来，以便做后续查询分析，本文介绍向Hive表中加载数据的几种方式。 6.1 建表时候直接指定如果你的数据已经在HDFS上存在，已经为结构化数据，并且数据所在的HDFS路径不需要维护，那么可以直接在建表的时候使用location指定数据所在...

10年前 (2015-06-15) 21504℃ 29喜欢

Hive

[一起学Hive]之六-Hive的动态分区

前面文章介绍了Hive中是支持分区的。关系型数据库（如Oracle）中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive的动态分区，需要进行...

10年前 (2015-06-15) 60704℃ 39喜欢

Hive

[一起学Hive]之五-Hive的视图和分区

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。四、Hive的视图和...

10年前 (2015-06-15) 55101℃ 24喜欢