分类：Spark

Spark算子：RDD创建操作

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

10年前 (2015-07-02) 39175℃ 36喜欢

关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基...

10年前 (2015-07-02) 27300℃ 8喜欢

关键字： Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）. 本...

10年前 (2015-07-01) 29625℃ 10喜欢

关键字：Spark RDD、Spark RDD partition、Spark RDD dependencies、Spark RDD preferredLocations、Spark RDD compute、Spark RDD partitioner 一、学习Spark RDD ...

10年前 (2015-06-30) 18554℃ 13喜欢

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinct map 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 hadoop fs -cat /t...

10年前 (2015-06-30) 85836℃ 127喜欢

Spark也有数据本地化的概念（Data Locality），这和MapReduce的Local Task差不多，如果读取HDFS文件，Spark则会根据数据的存储位置，分配离数据存储最近的Executor去执行任务。这么理解没错，我搭建的Spark集群情况是这样： 15台Da...

10年前 (2015-06-23) 17273℃ 11喜欢

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用Map Task扫描大表的同时，完成join，这对join的性能提升非常多。在SparkSQL中，目前还不支持自动或者手...

10年前 (2015-06-19) 19578℃ 14喜欢

Spark1.4发布，除了重量级的SparkR，其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列文章。在我们的数据平台中，90%以上的离线分析任务都是使用Hive实现，其中必...

10年前 (2015-06-17) 35902℃ 15喜欢

本文基于Spark1.3.1，介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。我是在一台机器上完成了Spark的部署，其实也是集群，只不过Master和Slave都在一台机器上。如果是多台机器的集群部署，步骤完全一样，只不过多些Slave而...

10年前 (2015-06-05) 10148℃ 4喜欢

Spark视频免费下载 1. Spark部署 http://pan.baidu.com/s/1bnCpUEz 提取码：3npw 2. Spark编程模型 http://pan.baidu.com/s/1o6Htm3o 提取码：jc64 3. Spark运行架构 http://pa...

10年前 (2015-05-27) 15906℃ 19喜欢

软件环境： flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3 流程说明： Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件，启动一个avro source，用来...

10年前 (2015-05-18) 19883℃ 14喜欢

基于eclipse的Spark IDE可在 http://scala-ide.org/ 下载。以WordCount为例： package com.lxw.test import org.apache.spark.{SparkConf, SparkContext} ...

10年前 (2015-05-15) 28463℃ 22喜欢

Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

10年前 (2015-05-05) 22666℃ 27喜欢