微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:Spark

Spark算子系列文章

Spark算子系列文章
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct Spark算子:RDD创建操作 Spark算子:RDD基本转换操作(2)–coalesce、repartition Spark算子:RDD基本转换操作(3)–randomSplit、glom...

2年前 (2015-07-06) 17711℃ 43喜欢

Spark算子:统计RDD分区中的元素及数量

Spark算子:统计RDD分区中的元素及数量
关键字:Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Bl...

2年前 (2015-07-06) 4922℃ 4喜欢

Spark算子:RDD创建操作

Spark算子:RDD创建操作
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

2年前 (2015-07-02) 9419℃ 11喜欢

SparkSQL读取HBase数据,通过自定义外部数据源

SparkSQL读取HBase数据,通过自定义外部数据源
关键字:SparkSQL读取HBase、SparkSQL自定义外部数据源 前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基...

2年前 (2015-07-02) 5605℃ 1喜欢

SparkSQL读取HBase数据

SparkSQL读取HBase数据
关键字: Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制 这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本...

2年前 (2015-07-01) 7565℃ 3喜欢