本文想记录和表达的东西挺多的,一时想不到什么好的标题,所以就用上面的关键字作为标题了。
在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...
7年前 (2018-02-22) 65733℃
114喜欢
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...
8年前 (2017-03-09) 27760℃
30喜欢
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。
Spark默认的调度策略为FIFO,即先进先出,只要...
8年前 (2017-03-08) 14620℃
14喜欢
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。
一般常用的做法有:
MapReduce中使用1个Reduce来生成;
Hive中使用row_number分析函数来生成,其实也是1个Reduce;
借助HBase或Redis或Z...
8年前 (2016-12-06) 23074℃
41喜欢
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...
8年前 (2016-10-21) 22103℃
20喜欢
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla
之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。
这两天找到...
8年前 (2016-09-29) 24908℃
8喜欢
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:
Hive的版本和Spark的版本要匹配;
具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark...
9年前 (2016-05-27) 43685℃
38喜欢
注:本文由王联辉在高可用架构群分享,本文转载自高可用架构「 ArchNotes 」
王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop ...
9年前 (2016-05-20) 25165℃
23喜欢
本文转自:http://tech.meituan.com/spark-tuning-pro.html
感谢原作者
前言
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优...
9年前 (2016-05-16) 19827℃
26喜欢
本文转自:http://tech.meituan.com/spark-tuning-pro.html
感谢原作者
前言
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式...
9年前 (2016-05-16) 18176℃
45喜欢
关键字:spark、机器学习、特征处理、特征选择
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...
9年前 (2016-03-08) 16085℃
11喜欢
关键字:spark、scala、rpc、akka、remote actor
Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。
在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...
9年前 (2016-03-03) 19388℃
10喜欢
关键字:spark、机器学习、特征处理
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...
9年前 (2016-02-26) 16999℃
5喜欢
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。
本文介绍使用Spark MLlib提...
9年前 (2016-01-22) 143528℃
138喜欢
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。
基本概念和原则
首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:
每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...
9年前 (2016-01-18) 14577℃
19喜欢