标签：spark算子

Spark算子：RDD基本转换操作(6)–zip、zipPartitions

关键字：Spark算子、Spark RDD基本转换、zip、zipPartitions zip def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)] zip函数用于将两个RDD组合成Key/Value...

10年前 (2015-07-06) 38059℃ 28喜欢

关键字：Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndex mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preser...

10年前 (2015-07-04) 88080℃ 101喜欢

关键字：Spark算子、Spark RDD基本转换、union、intersection、subtract union def union(other: RDD[T]): RDD[T] 该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var ...

10年前 (2015-07-02) 78362℃ 51喜欢

关键字：Spark算子、Spark RDD基本转换、randomSplit、glom randomSplit def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RD...

10年前 (2015-07-02) 38542℃ 29喜欢

关键字：Spark算子、Spark RDD基本转换、coalesce、repartition coalesce def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T]...

10年前 (2015-07-02) 53946℃ 54喜欢

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

10年前 (2015-07-02) 39241℃ 36喜欢

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinct map 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 hadoop fs -cat /t...

10年前 (2015-06-30) 86109℃ 127喜欢