关键字:Spark算子、Spark RDD基本转换、zip、zipPartitions
zip
def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]
zip函数用于将两个RDD组合成Key/Value...
10年前 (2015-07-06) 37945℃
28喜欢
关键字:Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndex
mapPartitions
def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preser...
10年前 (2015-07-04) 87954℃
101喜欢
关键字:Spark算子、Spark RDD基本转换、union、intersection、subtract
union
def union(other: RDD[T]): RDD[T]
该函数比较简单,就是将两个RDD进行合并,不去重。
scala> var ...
10年前 (2015-07-02) 78233℃
51喜欢
关键字:Spark算子、Spark RDD基本转换、randomSplit、glom
randomSplit
def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RD...
10年前 (2015-07-02) 38431℃
29喜欢
关键字:Spark算子、Spark RDD基本转换、coalesce、repartition
coalesce
def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T]...
10年前 (2015-07-02) 53830℃
54喜欢
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD
从集合创建RDD
parallelize
def parallelize[T...
10年前 (2015-07-02) 39139℃
36喜欢
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct
map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
hadoop fs -cat /t...
10年前 (2015-06-30) 85702℃
127喜欢