微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:Spark

SparkThriftServer的高可用-HA实现与配置

SparkThriftServer的高可用-HA实现与配置
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...

2周前 (03-09) 263℃ 1喜欢

SparkThrfitServer多用户资源竞争与分配问题

SparkThrfitServer多用户资源竞争与分配问题
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO,即先进先出,只要...

2周前 (03-08) 228℃ 2喜欢

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

4个月前 (12-06) 1819℃ 5喜欢

学习Spark2.0中的Structured Streaming(一)

学习Spark2.0中的Structured Streaming(一)
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...

5个月前 (10-21) 1930℃ 6喜欢

Python3环境下Caravel连接SparkSQL(ThriftServer)

Python3环境下Caravel连接SparkSQL(ThriftServer)
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla 之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。 这两天找到...

6个月前 (09-29) 2306℃ 1喜欢

Hive使用Spark on Yarn作为执行引擎

Hive使用Spark on Yarn作为执行引擎
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...

10个月前 (05-27) 4236℃ 9喜欢

Spark的RDD原理以及2.0特性的介绍

Spark的RDD原理以及2.0特性的介绍
注:本文由王联辉在高可用架构群分享,本文转载自高可用架构「 ArchNotes 」 王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop ...

10个月前 (05-20) 4430℃ 8喜欢

Spark性能优化指南——高级篇

Spark性能优化指南——高级篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优...

10个月前 (05-16) 3638℃ 8喜欢

Spark性能优化指南——基础篇

Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者   前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式...

10个月前 (05-16) 3345℃ 18喜欢

Spark机器学习API之特征处理(二)

Spark机器学习API之特征处理(二)
关键字:spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...

1年前 (2016-03-08) 3613℃ 7喜欢

Scala基于Akka的Remote Actor实现的简单RPC

Scala基于Akka的Remote Actor实现的简单RPC
关键字:spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。 在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...

1年前 (2016-03-03) 4213℃ 5喜欢

Spark机器学习API之特征处理(一)

Spark机器学习API之特征处理(一)
关键字:spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...

1年前 (2016-02-26) 4650℃ 2喜欢

Spark MLlib实现的中文文本分类–Naive Bayes

Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。 本文介绍使用Spark MLlib提...

1年前 (2016-01-22) 18295℃ 30喜欢

Spark的性能调优

Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...

1年前 (2016-01-18) 3692℃ 10喜欢

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...

1年前 (2016-01-15) 9203℃ 14喜欢