关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。
本文介绍使用Spark MLlib提...
9年前 (2016-01-22) 143526℃
138喜欢
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测
本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...
9年前 (2016-01-15) 42230℃
41喜欢
关键词:Mahout、K-Means、中文聚类
一、数据准备
版本说明
使用的Mahout版本为apache-mahout-distribution-0.10.1
使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0
分词
使用爬虫对每个URL的标题、关键词、描述进...
10年前 (2015-08-03) 20538℃
15喜欢
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。
关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。
例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%]
支持度3%:意味3%顾客同时购买牛...
10年前 (2015-04-21) 13145℃
11喜欢
有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里,觉得他们做的事情都差不多,我亦如此!
经过这几年工作中和他们的合作和学习,大概清楚了他们的区别,今天看到一篇文章,系统的解释了下这两者的区别:
数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数...
10年前 (2015-04-17) 10390℃
10喜欢