微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:Spark

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

2个月前 (12-06) 938℃ 4喜欢

学习Spark2.0中的Structured Streaming(一)

学习Spark2.0中的Structured Streaming(一)
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...

3个月前 (10-21) 1291℃ 5喜欢

Python3环境下Caravel连接SparkSQL(ThriftServer)

Python3环境下Caravel连接SparkSQL(ThriftServer)
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla 之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。 这两天找到...

4个月前 (09-29) 1663℃ 1喜欢

Hive使用Spark on Yarn作为执行引擎

Hive使用Spark on Yarn作为执行引擎
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...

8个月前 (05-27) 3584℃ 9喜欢

Spark的RDD原理以及2.0特性的介绍

Spark的RDD原理以及2.0特性的介绍
注:本文由王联辉在高可用架构群分享,本文转载自高可用架构「 ArchNotes 」 王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop ...

8个月前 (05-20) 3836℃ 7喜欢

Spark性能优化指南——高级篇

Spark性能优化指南——高级篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优...

8个月前 (05-16) 3136℃ 8喜欢

Spark性能优化指南——基础篇

Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者   前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式...

8个月前 (05-16) 2814℃ 18喜欢

Spark机器学习API之特征处理(二)

Spark机器学习API之特征处理(二)
关键字:spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...

11个月前 (03-08) 3207℃ 7喜欢

Scala基于Akka的Remote Actor实现的简单RPC

Scala基于Akka的Remote Actor实现的简单RPC
关键字:spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。 在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...

11个月前 (03-03) 3769℃ 5喜欢

Spark机器学习API之特征处理(一)

Spark机器学习API之特征处理(一)
关键字:spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...

11个月前 (02-26) 4198℃ 1喜欢

Spark MLlib实现的中文文本分类–Naive Bayes

Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。 本文介绍使用Spark MLlib提...

1年前 (2016-01-22) 15584℃ 27喜欢

Spark的性能调优

Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...

1年前 (2016-01-18) 3329℃ 9喜欢

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...

1年前 (2016-01-15) 8189℃ 14喜欢

Spark动态资源分配-Dynamic Resource Allocation

Spark动态资源分配-Dynamic Resource Allocation
关键字:spark、资源分配、dynamic resource allocation Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Yarn模式下,通常使用–num-executors来指定Appl...

1年前 (2015-12-31) 7482℃ 12喜欢