关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD
从集合创建RDD
parallelize
def parallelize[T...
10年前 (2015-07-02) 39175℃
36喜欢
关键字:SparkSQL读取HBase、SparkSQL自定义外部数据源
前面文章介绍了SparSQL通过Hive操作HBase表。
SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基...
10年前 (2015-07-02) 27300℃
8喜欢
关键字: Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制
这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读).
本...
10年前 (2015-07-01) 29625℃
10喜欢
关键字:Spark RDD、Spark RDD partition、Spark RDD dependencies、Spark RDD preferredLocations、Spark RDD compute、Spark RDD partitioner
一、学习Spark RDD
...
10年前 (2015-06-30) 18554℃
13喜欢
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct
map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
hadoop fs -cat /t...
10年前 (2015-06-30) 85836℃
127喜欢
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Executor去执行任务。
这么理解没错,我搭建的Spark集群情况是这样:
15台Da...
10年前 (2015-06-23) 17273℃
11喜欢
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。
在SparkSQL中,目前还不支持自动或者手...
10年前 (2015-06-19) 19578℃
14喜欢
Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。
在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必...
10年前 (2015-06-17) 35902℃
15喜欢
本文基于Spark1.3.1,介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。
我是在一台机器上完成了Spark的部署,其实也是集群,只不过Master和Slave都在一台机器上。如果是多台机器的集群部署,步骤完全一样,只不过多些Slave而...
10年前 (2015-06-05) 10148℃
4喜欢
Spark视频免费下载
1. Spark部署
http://pan.baidu.com/s/1bnCpUEz
提取码:3npw
2. Spark编程模型
http://pan.baidu.com/s/1o6Htm3o
提取码:jc64
3. Spark运行架构
http://pa...
10年前 (2015-05-27) 15906℃
19喜欢
软件环境:
flume-ng-core-1.4.0-cdh5.0.0
spark-1.2.0-bin-hadoop2.3
流程说明:
Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来...
10年前 (2015-05-18) 19883℃
14喜欢
基于eclipse的Spark IDE可在 http://scala-ide.org/ 下载。
以WordCount为例:
package com.lxw.test
import org.apache.spark.{SparkConf, SparkContext}
...
10年前 (2015-05-15) 28463℃
22喜欢
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...
10年前 (2015-05-05) 22666℃
27喜欢