注:本文转载自公众号AdMaster
作为技术驱动的营销数据公司,AdMaster每天处理超过100亿的数据请求,每天对1000亿数据进行上千种维度计算,每天增加超过5T数据量,为来自各行业的客户提供7*24小时数据应用服务。在这样领先的技术布局下,无论是数据实时...
8年前 (2016-09-06) 8426℃
8喜欢
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对...
8年前 (2016-08-26) 20701℃
23喜欢
在OLAP多维分析中,Count Distinct(去重计数)是一种非常常用的指标度量,比如一段时间内的UV、活跃用户数等等;
从1.5.3开始,Apache Kylin提供了两种Count Distinct计算方式,一种是近似的,一种是精确的,精确的Count Distinct...
8年前 (2016-08-25) 18000℃
13喜欢
Apache Kylin使用手册和管理手册中文版,很实用。
使用手册:
链接: https://pan.baidu.com/s/1i63FpfJ 密码: 4cnk
管理手册:
链接: https://pan.baidu.com/s/1i6HSxpF 密码: 47ew
如果觉得...
8年前 (2016-08-23) 18593℃
37喜欢
Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。
本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。
代码如下:
package com.lxw1234.hive.orc;
import org....
9年前 (2016-07-25) 32288℃
19喜欢
关键字:互联网、大数据、数据仓库、数据平台、架构
导读:
整体架构
数据采集
离线计算
实时计算
多维分析OLAP
机器学习
Ad-Hoc查询
数据可视化
上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...
9年前 (2016-07-21) 29852℃
47喜欢
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...
9年前 (2016-07-13) 22546℃
15喜欢
之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上,介绍根据用户组管理分配资源池的配置。
假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户...
9年前 (2016-06-23) 18116℃
16喜欢
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。
原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的...
9年前 (2016-06-20) 177909℃
80喜欢
关键字:caravel、olap、kylin、数据可视化
经过我和好友Rocky一段时间的修改和调试,现已将初版的Caravel For Kylin上传至Github,供大家使用,如有发现任何的问题,可通过本博客或github联系我们。
GitHub地址:
https://git...
9年前 (2016-06-13) 28864℃
11喜欢
关键字:kylin、streaming table
Kylin从1.5版本开始,引入了Streaming Table,目的是为了减低OLAP分析的延时(比如Druid、ElasticSearch都支持实时数据流)。
Streaming Table周期性的从Kafka中读取数据,根...
9年前 (2016-06-13) 22618℃
13喜欢
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数...
9年前 (2016-06-12) 24231℃
30喜欢
关键词:caravel、olap、kylin、数据可视化
Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。官网地址为: http://ai...
9年前 (2016-06-06) 68013℃
92喜欢
Hive从2.0版本开始,为HiveServer2提供了一个简单的WEB UI界面,界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。
https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...
9年前 (2016-06-01) 26936℃
21喜欢
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce 来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查...
9年前 (2016-05-30) 18893℃
3喜欢