分类：Spark

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了。在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...

7年前 (2018-02-22) 65544℃ 114喜欢

一个规模比较大，用户比较多的数据仓库/数据平台中，肯定会面临这两个问题：多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中，95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成，平台的开发和内部用户有十来个，Hive和SparkSQL的使用，自然也会面临...

8年前 (2017-03-09) 27691℃ 30喜欢

如果使用SparkThrfitServer结合Hive来做即席查询，那么会遇到这样的问题，一个数据量很大的查询SQL把所有的资源全占了，导致后面的SQL都等待，尽管在等待的SQL只需要1秒就能完成，这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO，即先进先出，只要...

8年前 (2017-03-08) 14575℃ 14喜欢

在实际业务场景下，经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。一般常用的做法有： MapReduce中使用1个Reduce来生成； Hive中使用row_number分析函数来生成，其实也是1个Reduce；借助HBase或Redis或Z...

8年前 (2016-12-06) 23012℃ 41喜欢

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。Structured Streaming顾名思义，它将数据源和...

8年前 (2016-10-21) 22047℃ 20喜欢

关键字：caravel、python3、hiveserver2、sparksql、spark thrift server、impyla 之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析，发现pyhive不支持python3。这两天找到...

8年前 (2016-09-29) 24836℃ 8喜欢

Hive从1.1之后，支持使用Spark作为执行引擎，配置使用Spark On Yarn作为Hive的执行引擎，首先需要注意以下两个问题： Hive的版本和Spark的版本要匹配；具体来说，你使用的Hive版本编译时候用的哪个版本的Spark，那么就需要使用相同版本的Spark...

9年前 (2016-05-27) 43555℃ 38喜欢

注：本文由王联辉在高可用架构群分享，本文转载自高可用架构「 ArchNotes 」王联辉，曾在腾讯，Intel 等公司从事大数据相关的工作。2013 年 – 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop ...

9年前 (2016-05-20) 25117℃ 23喜欢

本文转自：http://tech.meituan.com/spark-tuning-pro.html 感谢原作者前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优...

9年前 (2016-05-16) 19748℃ 26喜欢

本文转自：http://tech.meituan.com/spark-tuning-pro.html 感谢原作者前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式...

9年前 (2016-05-16) 18120℃ 45喜欢

关键字：spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml...

9年前 (2016-03-08) 16033℃ 11喜欢

关键字：spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的，Akka的设计目标就是为分布式，Actor之间的交互都是通过消息，并且所有动作都是异步的。在Spark应用程序中会有需要实现RPC的功能，比如：从一个一直运行的...

9年前 (2016-03-03) 19339℃ 10喜欢

关键字：spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比...

9年前 (2016-02-26) 16934℃ 5喜欢

关键字：spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类，在数据平台的一个典型的应用场景是，通过爬取用户浏览过的页面内容，识别出用户的浏览偏好，从而丰富该用户的画像。本文介绍使用Spark MLlib提...

9年前 (2016-01-22) 143112℃ 138喜欢

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个ex...

9年前 (2016-01-18) 14530℃ 19喜欢