lxw1234@qq.com的文章

一起学Hive系列文章

[一起学Hive]之一–Hive概述，Hive是什么 [一起学Hive]之二–Hive函数大全-完整版 [一起学Hive]之三–Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和...

10年前 (2015-07-06) 46684℃ 120喜欢

Spark

Spark算子系列文章

Spark算子：RDD基本转换操作(1)–map、flagMap、distinct Spark算子：RDD创建操作 Spark算子：RDD基本转换操作(2)–coalesce、repartition Spark算子：RDD基本转换操作(3)–randomSplit、glom...

10年前 (2015-07-06) 71571℃ 165喜欢

Spark

Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

关键字：Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocally groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPar...

10年前 (2015-07-06) 54618℃ 15喜欢

Spark

Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

关键字：Spark算子、Spark RDD键值转换、combineByKey、foldByKey combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, m...

10年前 (2015-07-06) 46064℃ 17喜欢

Spark

Spark算子：RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

关键字：Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValues partitionBy def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partit...

10年前 (2015-07-06) 34117℃ 18喜欢

Spark

Spark算子：统计RDD分区中的元素及数量

关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Bl...

10年前 (2015-07-06) 24195℃ 11喜欢

Spark

Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

关键字：Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueId zipWithIndex def zipWithIndex(): RDD[(T, Long)] 该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对。...

10年前 (2015-07-06) 56819℃ 53喜欢

Spark

Spark算子：RDD基本转换操作(6)–zip、zipPartitions

关键字：Spark算子、Spark RDD基本转换、zip、zipPartitions zip def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)] zip函数用于将两个RDD组合成Key/Value...

10年前 (2015-07-06) 37955℃ 28喜欢

Spark

Spark算子：RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

关键字：Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndex mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preser...

10年前 (2015-07-04) 87968℃ 101喜欢

Spark

Spark算子：RDD基本转换操作(4)–union、intersection、subtract

关键字：Spark算子、Spark RDD基本转换、union、intersection、subtract union def union(other: RDD[T]): RDD[T] 该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var ...

10年前 (2015-07-02) 78241℃ 51喜欢

Spark

Spark算子：RDD基本转换操作(3)–randomSplit、glom

关键字：Spark算子、Spark RDD基本转换、randomSplit、glom randomSplit def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RD...

10年前 (2015-07-02) 38447℃ 29喜欢

Spark

Spark算子：RDD基本转换操作(2)–coalesce、repartition

关键字：Spark算子、Spark RDD基本转换、coalesce、repartition coalesce def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T]...

10年前 (2015-07-02) 53841℃ 54喜欢

Spark

Spark算子：RDD创建操作

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

10年前 (2015-07-02) 39151℃ 36喜欢

Spark

SparkSQL读取HBase数据，通过自定义外部数据源

关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基...

10年前 (2015-07-02) 27279℃ 8喜欢

Spark

SparkSQL读取HBase数据

关键字： Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）. 本...

10年前 (2015-07-01) 29590℃ 10喜欢