微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

lxw1234@qq.com的文章

Hive

一起学Hive系列文章

一起学Hive系列文章
[一起学Hive]之一–Hive概述,Hive是什么 [一起学Hive]之二–Hive函数大全-完整版 [一起学Hive]之三–Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和...

10年前 (2015-07-06) 46684℃ 120喜欢

Spark

Spark算子系列文章

Spark算子系列文章
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct Spark算子:RDD创建操作 Spark算子:RDD基本转换操作(2)–coalesce、repartition Spark算子:RDD基本转换操作(3)–randomSplit、glom...

10年前 (2015-07-06) 71571℃ 165喜欢

Spark

Spark算子:统计RDD分区中的元素及数量

Spark算子:统计RDD分区中的元素及数量
关键字:Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Bl...

10年前 (2015-07-06) 24195℃ 11喜欢

Spark

Spark算子:RDD创建操作

Spark算子:RDD创建操作
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T...

10年前 (2015-07-02) 39151℃ 36喜欢

Spark

SparkSQL读取HBase数据,通过自定义外部数据源

SparkSQL读取HBase数据,通过自定义外部数据源
关键字:SparkSQL读取HBase、SparkSQL自定义外部数据源 前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource),这样就可以通过API接口来实现自己的外部数据源。这里基...

10年前 (2015-07-02) 27279℃ 8喜欢

Spark

SparkSQL读取HBase数据

SparkSQL读取HBase数据
关键字: Spark读取HBase、SparkSQL读取HBase、SparkSQL整合Hive读取HBase表、Spark任务本地化调度机制 这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本...

10年前 (2015-07-01) 29590℃ 10喜欢