微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

 分类:Spark

Spark算子:RDD创建操作

Spark算子:RDD创建操作
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

10年前 (2015-07-02) 39175℃ 36喜欢

SparkSQL读取HBase数据,通过自定义外部数据源

SparkSQL读取HBase数据,通过自定义外部数据源
关键字:SparkSQL读取HBase、SparkSQL自定义外部数据源 前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基...

10年前 (2015-07-02) 27300℃ 8喜欢

SparkSQL读取HBase数据

SparkSQL读取HBase数据
关键字: Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制 这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本...

10年前 (2015-07-01) 29625℃ 10喜欢

学习Spark RDD

学习Spark RDD
关键字:Spark RDD、Spark RDD partition、Spark RDD dependencies、Spark RDD preferredLocations、Spark RDD compute、Spark RDD partitioner 一、学习Spark RDD ...

10年前 (2015-06-30) 18554℃ 13喜欢

Spark算子:RDD基本转换操作(1)–map、flatMap、distinct

Spark算子:RDD基本转换操作(1)–map、flatMap、distinct
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct map 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 hadoop fs -cat /t...

10年前 (2015-06-30) 85836℃ 127喜欢

Spark读取HDFS文件,任务本地化(NODE_LOCAL)

Spark读取HDFS文件,任务本地化(NODE_LOCAL)
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Executor去执行任务。 这么理解没错,我搭建的Spark集群情况是这样: 15台Da...

10年前 (2015-06-23) 17273℃ 11喜欢

Spark SQL中实现Hive MapJoin

Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。 在SparkSQL中,目前还不支持自动或者手...

10年前 (2015-06-19) 19578℃ 14喜欢

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数
Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。 在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必...

10年前 (2015-06-17) 35902℃ 15喜欢

Spark1.3.1安装配置运行

Spark1.3.1安装配置运行
本文基于Spark1.3.1,介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。 我是在一台机器上完成了Spark的部署,其实也是集群,只不过Master和Slave都在一台机器上。如果是多台机器的集群部署,步骤完全一样,只不过多些Slave而...

10年前 (2015-06-05) 10148℃ 4喜欢

Spark视频免费下载

Spark视频免费下载
Spark视频免费下载 1. Spark部署 http://pan.baidu.com/s/1bnCpUEz 提取码:3npw 2. Spark编程模型 http://pan.baidu.com/s/1o6Htm3o 提取码:jc64 3. Spark运行架构 http://pa...

10年前 (2015-05-27) 15906℃ 19喜欢

Spark Streaming+Flume对接实验

Spark Streaming+Flume对接实验
软件环境: flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3 流程说明: Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来...

10年前 (2015-05-18) 19883℃ 14喜欢

Hive on Spark解析

Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

10年前 (2015-05-05) 22666℃ 27喜欢