微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:数据仓库/数据库

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...

2年前 (2016-01-15) 13663℃ 22喜欢

数据仓库中历史拉链表的更新方法

数据仓库中历史拉链表的更新方法
关键字:数据仓库、极限存储、历史拉链表、更新 在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》, 使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。 本文中假设: 数据仓库中订单历史表的刷新频率为一天,当...

2年前 (2015-08-27) 19092℃ 41喜欢

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
关键字:互联网、大数据、数据仓库、数据平台、架构 导读: 整体架构 数据采集 数据存储与分析 数据共享 数据应用 实时计算 任务调度与监控 元数据管理 总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网...

2年前 (2015-08-19) 27035℃ 88喜欢

Mahout使用K-Means进行中文文本聚类

Mahout使用K-Means进行中文文本聚类
关键词:Mahout、K-Means、中文聚类 一、数据准备 版本说明 使用的Mahout版本为apache-mahout-distribution-0.10.1 使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0 分词 使用爬虫对每个URL的标题、关键词、描述进...

2年前 (2015-08-03) 7894℃ 9喜欢

【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析

【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。 关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。 例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%] 支持度3%:意味3%顾客同时购买牛...

3年前 (2015-04-21) 2940℃ 5喜欢

MySQL Cluster 7.3.5安装配置

MySQL Cluster 7.3.5安装配置
MySQL-Cluster简介: MySQL Cluster是一种技术,该技术允许在无共享的系统中部署“内存中”数据库的集群。通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求,适合于分布式计算环境的高实用、高冗余版本。此外,由于每个组件有自己的内存和磁盘,不存...

3年前 (2015-04-17) 5724℃ 5喜欢

sqlserver 动态列转行

sqlserver 动态列转行
今天在sqlserver2012上遇到一个分析需求,用到动态列转行,记录一下: create table t1 (id int,value varchar(100)); insert into t1 values(1,'a,b,c'); ...

3年前 (2015-04-17) 2091℃ 1喜欢

数据分析和数据挖掘的区别

数据分析和数据挖掘的区别
有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里,觉得他们做的事情都差不多,我亦如此! 经过这几年工作中和他们的合作和学习,大概清楚了他们的区别,今天看到一篇文章,系统的解释了下这两者的区别: 数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数...

3年前 (2015-04-17) 2961℃ 5喜欢

数据仓库之 ETL

数据仓库之 ETL
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。   大多数据仓库的数据架构可以概括为: 数据源–>ODS(操作型数据存储)–>DW–>DM(dat...

3年前 (2015-04-17) 4727℃ 31喜欢

数据仓库数据模型之:极限存储–历史拉链表

数据仓库数据模型之:极限存储–历史拉链表
在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户...

3年前 (2015-04-17) 7400℃ 19喜欢