[一起学Hive]之一–Hive概述,Hive是什么
[一起学Hive]之二–Hive函数大全-完整版
[一起学Hive]之三–Hive中的数据库(Database)和表(Table)
[一起学Hive]之四-Hive的安装配置
[一起学Hive]之五-Hive的视图和...
9年前 (2015-07-06) 46325℃
120喜欢
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
Spark算子:RDD创建操作
Spark算子:RDD基本转换操作(2)–coalesce、repartition
Spark算子:RDD基本转换操作(3)–randomSplit、glom...
9年前 (2015-07-06) 71092℃
165喜欢
关键字:Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocally
groupByKey
def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPar...
9年前 (2015-07-06) 54499℃
15喜欢
关键字:Spark算子、Spark RDD键值转换、combineByKey、foldByKey
combineByKey
def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, m...
9年前 (2015-07-06) 45603℃
17喜欢
关键字:Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValues
partitionBy
def partitionBy(partitioner: Partitioner): RDD[(K, V)]
该函数根据partit...
9年前 (2015-07-06) 33983℃
18喜欢
关键字:Spark算子、Spark RDD分区、Spark RDD分区元素数量
Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Bl...
9年前 (2015-07-06) 24055℃
11喜欢
关键字:Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueId
zipWithIndex
def zipWithIndex(): RDD[(T, Long)]
该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对。...
9年前 (2015-07-06) 56688℃
53喜欢
关键字:Spark算子、Spark RDD基本转换、zip、zipPartitions
zip
def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]
zip函数用于将两个RDD组合成Key/Value...
9年前 (2015-07-06) 37833℃
28喜欢
关键字:Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndex
mapPartitions
def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preser...
9年前 (2015-07-04) 87798℃
101喜欢
关键字:Spark算子、Spark RDD基本转换、union、intersection、subtract
union
def union(other: RDD[T]): RDD[T]
该函数比较简单,就是将两个RDD进行合并,不去重。
scala> var ...
9年前 (2015-07-02) 78077℃
51喜欢
关键字:Spark算子、Spark RDD基本转换、randomSplit、glom
randomSplit
def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RD...
9年前 (2015-07-02) 38316℃
29喜欢
关键字:Spark算子、Spark RDD基本转换、coalesce、repartition
coalesce
def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T]...
9年前 (2015-07-02) 53735℃
54喜欢
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD
从集合创建RDD
parallelize
def parallelize[T...
9年前 (2015-07-02) 39037℃
36喜欢
关键字:SparkSQL读取HBase、SparkSQL自定义外部数据源
前面文章介绍了SparSQL通过Hive操作HBase表。
SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基...
9年前 (2015-07-02) 27136℃
8喜欢
关键字: Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制
这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读).
本...
9年前 (2015-07-01) 29406℃
10喜欢