关键字:olap、Kylin
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
Kylin OLAP引擎基础框架,包括元...
9年前 (2016-04-27) 64775℃
84喜欢
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...
9年前 (2016-03-23) 15937℃
10喜欢
关键字:大数据平台、机器学习
贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...
9年前 (2016-02-16) 27149℃
33喜欢
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测
本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...
9年前 (2016-01-15) 42145℃
41喜欢
关键字:数据仓库、极限存储、历史拉链表、更新
在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》,
使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。
本文中假设:
数据仓库中订单历史表的刷新频率为一天,当...
9年前 (2015-08-27) 89846℃
144喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
数据存储与分析
数据共享
数据应用
实时计算
任务调度与监控
元数据管理
总结
一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。
先大概列一下互联网...
9年前 (2015-08-19) 80212℃
196喜欢
关键词:Mahout、K-Means、中文聚类
一、数据准备
版本说明
使用的Mahout版本为apache-mahout-distribution-0.10.1
使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0
分词
使用爬虫对每个URL的标题、关键词、描述进...
9年前 (2015-08-03) 20485℃
15喜欢
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。
关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。
例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%]
支持度3%:意味3%顾客同时购买牛...
10年前 (2015-04-21) 13102℃
11喜欢
MySQL-Cluster简介:
MySQL Cluster是一种技术,该技术允许在无共享的系统中部署“内存中”数据库的集群。通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求,适合于分布式计算环境的高实用、高冗余版本。此外,由于每个组件有自己的内存和磁盘,不存...
10年前 (2015-04-17) 11667℃
6喜欢
今天在sqlserver2012上遇到一个分析需求,用到动态列转行,记录一下:
create table t1 (id int,value varchar(100));
insert into t1 values(1,'a,b,c');
...
10年前 (2015-04-17) 7559℃
2喜欢
有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里,觉得他们做的事情都差不多,我亦如此!
经过这几年工作中和他们的合作和学习,大概清楚了他们的区别,今天看到一篇文章,系统的解释了下这两者的区别:
数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数...
10年前 (2015-04-17) 10350℃
10喜欢
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
大多数据仓库的数据架构可以概括为:
数据源–>ODS(操作型数据存储)–>DW–>DM(dat...
10年前 (2015-04-17) 17439℃
63喜欢
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:
数据量比较大;
2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;
3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,
比如,查看某一个用户...
10年前 (2015-04-17) 38955℃
72喜欢