关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测
本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...
9年前 (2016-01-15) 42145℃
41喜欢
关键字:spark、资源分配、dynamic resource allocation
Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Yarn模式下,通常使用–num-executors来指定Appl...
9年前 (2015-12-31) 51028℃
31喜欢
关键字:SparkSQL、Spark Streaming、SQL、实时计算
Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括S...
9年前 (2015-11-11) 47510℃
71喜欢
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。
DataFrame执行后端优化(Tungsten第一阶段)
DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目...
9年前 (2015-09-10) 7155℃
3喜欢
Spark On Yarn:提交Spark应用程序到Yarn
在Yarn上运行spark-shell和spark-sql命令行
SparkSQL On Yarn with Hive,操作和访问Hive表
持续更新中。。。
您可以关注 我的博客,或者 加入邮件列表...
9年前 (2015-08-19) 25542℃
16喜欢
关键字:SparkSQL on Yarn、SparkSQL Hive On Yarn
前面的文章介绍过如何向Yarn中提交Spark应用程序《Spark On Yarn:提交Spark应用程序到Yarn》,
以及在Yarn上运行spark-shell和spark-sql命令行《在...
9年前 (2015-08-19) 18702℃
15喜欢
关键字:spark-shell on yarn、spark-sql on yarn
前面的文章《Spark On Yarn:提交Spark应用程序到Yarn》介绍了将Spark应用程序提交到Yarn上运行。有时候在做开发测试的时候,需要使用spark-shell和spark-sq...
9年前 (2015-08-11) 38614℃
15喜欢
关键字:华为Astro、SparkSQL On HBase、SQL On HBase
华为最近开源的SparkSQL On HBase,又名Astro,
整合了Spark、SparkSQL、HBase,是继Phoenix后,SQL On HBase的又一利器。
至于实际用起来怎么...
9年前 (2015-07-30) 17749℃
18喜欢
关键字:Hive udf、SparkSQL udf、 第三方jar包
当在Hive和SparkSQL中使用的自定义UDF函数需要依赖第三方jar包时,可以将所有jar包通过类似于fatjar等插件打在一起,但显得太麻烦、太累赘了。
其实只需要在运行时候将依赖的第三方jar包和ud...
9年前 (2015-07-23) 20151℃
11喜欢
关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client
Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用。
要把Spark...
9年前 (2015-07-15) 39422℃
18喜欢
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
saveAsNewAPIHadoopFile
def saveAsNewAPI...
10年前 (2015-07-10) 25863℃
11喜欢
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsHadoopFile、saveAsHadoopDataset
saveAsHadoopFile
def saveAsHadoopFile(path: String,...
10年前 (2015-07-10) 18465℃
6喜欢
关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
saveAsTextFile
def saveAsTextFile(pat...
10年前 (2015-07-10) 37253℃
8喜欢
关键字:Spark算子、Spark函数、Spark RDD行动Action、countByKey、foreach、foreachPartition、sortBy
countByKey
def countByKey(): Map[K, Long]
countByKey用于统计RDD...
10年前 (2015-07-10) 52613℃
20喜欢
关键字:Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookup
aggregate
def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(...
10年前 (2015-07-09) 24884℃
13喜欢