之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。
V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL;
其中,对于事实表数据量非常小(&l...
8年前 (2016-10-11) 23780℃
27喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
离线计算
实时计算
多维分析OLAP
机器学习
Ad-Hoc查询
数据可视化
上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...
8年前 (2016-07-21) 29765℃
47喜欢
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...
8年前 (2016-07-13) 22470℃
15喜欢
资源列表:
关系数据库管理系统(RDBMS)
框架
分布式编程
分布式文件系统
文件数据模型
Key -Map 数据模型
键-值数据模型
图形数据模型
NewSQL数据库
列式数据库
时间序列数据库
类SQL处理
数据摄取
...
9年前 (2016-05-09) 19081℃
13喜欢
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...
9年前 (2016-03-23) 15946℃
10喜欢
关键字:大数据平台、机器学习
贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...
9年前 (2016-02-16) 27159℃
33喜欢
关键字:日志、实时收集、实时计算
作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...
9年前 (2015-11-27) 57320℃
50喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
数据存储与分析
数据共享
数据应用
实时计算
任务调度与监控
元数据管理
总结
一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。
先大概列一下互联网...
9年前 (2015-08-19) 80225℃
196喜欢
DataX介绍
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。
目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定...
10年前 (2015-05-29) 94342℃
110喜欢
京东技术开放日-京东大数据平台技术架构与应用视频、PPT下载
京东大数据基础架构和实践-王彦明
京东大数据基础架构和实践
链接: https://pan.baidu.com/s/1o9RlM0y
密码: ibkd
京东大数据分析与创新应用-邢志峰
京东大数据分析与...
10年前 (2015-05-28) 14916℃
20喜欢
计算及商业评论杂志给出了2015年Hadoop的10个预测。既包括了企业端的Hadoop(增长率,整合),也包括了技术整合,像Spark vs Hadoop和SQL for Hadoop。
这是你需要了解的2015年大数据分析工具的指南。
1. 市场份额增长至$2.2bn
根...
10年前 (2015-04-20) 5264℃
1喜欢
背景
大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。
这些任务需要不同的运行环境,并且除了定时运行,各种类型...
10年前 (2015-04-17) 624616℃
698喜欢
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性, 以...
10年前 (2015-04-17) 9413℃
14喜欢