lxw的大数据田地Hadoop/Hive/HBase/Spark/Java-Page 4

AdMaster 如何驾驭百亿级Key实时Redis 集群

注：本文转载自公众号AdMaster 作为技术驱动的营销数据公司，AdMaster每天处理超过100亿的数据请求，每天对1000亿数据进行上千种维度计算，每天增加超过5T数据量，为来自各行业的客户提供7*24小时数据应用服务。在这样领先的技术布局下，无论是数据实时...

8年前 (2016-09-06) 8453℃ 8喜欢

Kylin

Apache Kylin中对上亿字符串的精确Count_Distinct示例

上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现，如果业务中能接受1.22%的误差，那么肯定首选近似算法，因为它能节省很多资源和时间。如果业务中必须使用精确去重，那么就看看本文的例子（针对...

8年前 (2016-08-26) 20743℃ 23喜欢

Kylin

在Apache Kylin中使用Count Distinct

在OLAP多维分析中，Count Distinct（去重计数）是一种非常常用的指标度量，比如一段时间内的UV、活跃用户数等等; 从1.5.3开始，Apache Kylin提供了两种Count Distinct计算方式，一种是近似的，一种是精确的，精确的Count Distinct...

8年前 (2016-08-25) 18033℃ 13喜欢

Kylin

Apache Kylin使用手册和管理手册中文版

Apache Kylin使用手册和管理手册中文版，很实用。使用手册：链接: https://pan.baidu.com/s/1i63FpfJ 密码: 4cnk 管理手册：链接: https://pan.baidu.com/s/1i6HSxpF 密码: 47ew 如果觉得...

8年前 (2016-08-23) 18633℃ 37喜欢

Hive

Java写本地ORC文件(Hive2 API)

Hive2.0以后，使用了新的API来读写ORC文件（https://orc.apache.org）。本文中的代码，在本地使用Java程序生成ORC文件，然后加载到Hive表。代码如下： package com.lxw1234.hive.orc; import org....

9年前 (2016-07-25) 32436℃ 19喜欢

大数据平台

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

关键字：互联网、大数据、数据仓库、数据平台、架构导读：整体架构数据采集离线计算实时计算多维分析OLAP 机器学习 Ad-Hoc查询数据可视化上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文，已是一年前的事了，经过一年的沉淀与公司业务的发展，...

9年前 (2016-07-21) 29914℃ 47喜欢

大数据平台

一站式用户自助数据接入与分析平台

一站式用户自助数据接入与分析平台，也可以当做一个提供大数据分析服务的云平台，用户可以基于平台数据仓库中已有的事实表和维度表（有访问权限），自助建立分析模型，进行OLAP分析与可视化；也可以将自己的数据接入到平台，在已接入的数据上自助建立分析模型，进行OLAP分析与可视化。对于前者...

9年前 (2016-07-13) 22605℃ 15喜欢

Hadoop

Yarn公平调度器Fair Scheduler根据用户组分配资源池

之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上，介绍根据用户组管理分配资源池的配置。假设在生产环境Yarn中，总共有四类用户需要使用集群，开发用户...

9年前 (2016-06-23) 18141℃ 16喜欢

Kylin

开源数据可视化工具（For Apache Kylin）使用说明

Apache Kylin，很好的解决了海量数据OLAP的底层存储与分析引擎，但还缺一个数据可视化工具，可以使用户非常方便的通过图形化分析探索海量数据，而不用写SQL。于是我们发现了Caravel。原生的Caravel并不支持Kylin，也不支持多表关联，经过好友Rocky和我的...

9年前 (2016-06-20) 178146℃ 80喜欢

Kylin

开源OLAP+数据可视化工具–For Apache Kylin

关键字：caravel、olap、kylin、数据可视化经过我和好友Rocky一段时间的修改和调试，现已将初版的Caravel For Kylin上传至Github，供大家使用，如有发现任何的问题，可通过本博客或github联系我们。 GitHub地址： https://git...

9年前 (2016-06-13) 28919℃ 11喜欢

Kylin

Apache Kylin中使用Streaming Table构建准实时Cube

关键字：kylin、streaming table Kylin从1.5版本开始，引入了Streaming Table，目的是为了减低OLAP分析的延时（比如Druid、ElasticSearch都支持实时数据流）。 Streaming Table周期性的从Kafka中读取数据，根...

9年前 (2016-06-13) 22651℃ 13喜欢

Flume

Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题

如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events，便会遇到Kafka Topic覆盖问题，具体表现为，Kafka Source可以正常从指定的Topic中读取数据，但在Kafka Sink中配置的目标Topic不起作用，数...

9年前 (2016-06-12) 24269℃ 30喜欢

Kylin

Caravel–一款开源OLAP+数据可视化分析前端工具，支持Druid和Kylin

关键词：caravel、olap、kylin、数据可视化 Caravel(曾用名Panoramix)，是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具，该工具在可视化、易用性和交互性上非常有特色，用户可以轻松对数据进行可视化分析。官网地址为： http://ai...

9年前 (2016-06-06) 68142℃ 92喜欢

Hive

Hive2.0中HiveServer2的WEB UI界面

Hive从2.0版本开始，为HiveServer2提供了一个简单的WEB UI界面，界面中可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息。 https://cwiki.apache.org/confluence/display/Hive/Setting+Up+Hiv...

9年前 (2016-06-01) 26969℃ 21喜欢

Hive

Hive中使用ORC遇到的protobuf版本问题

Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce 来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的节省HDFS存储资源，而且对数据的查...

9年前 (2016-05-30) 18921℃ 3喜欢

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

热门排行

AdMaster 如何驾驭百亿级Key实时Redis 集群

Apache Kylin中对上亿字符串的精确Count_Distinct示例

在Apache Kylin中使用Count Distinct

Apache Kylin使用手册和管理手册中文版

Java写本地ORC文件(Hive2 API)

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

一站式用户自助数据接入与分析平台

Yarn公平调度器Fair Scheduler根据用户组分配资源池

开源数据可视化工具（For Apache Kylin）使用说明

开源OLAP+数据可视化工具–For Apache Kylin

Apache Kylin中使用Streaming Table构建准实时Cube

Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题

Caravel–一款开源OLAP+数据可视化分析前端工具，支持Druid和Kylin

Hive2.0中HiveServer2的WEB UI界面

Hive中使用ORC遇到的protobuf版本问题