微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
大数据平台

华扬数据自助分析系统V1.0

华扬数据自助分析系统V1.0
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。 V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL; 其中,对于事实表数据量非常小(&l...

4个月前 (10-11) 3222℃ 18喜欢

编程语言

Python从变量读取的特殊字符切分字符串问题

Python从变量读取的特殊字符切分字符串问题
数据库中使用VARCHAR类型存储分隔符,分隔符有很多种,用户自已输入的,比如逗号、TAB(\t)、^A(\001)等等。 Python从数据库中读取分隔符,然后对对应的文本进行切分。普通字符没有问题,对于特殊字符,则需要进行处理之后才能正确切分。     ...

5个月前 (09-30) 751℃ 0喜欢

Hive

几个连接HiveServer的客户端界面工具

几个连接HiveServer的客户端界面工具
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

5个月前 (09-28) 2280℃ 2喜欢

HBase

HBase原理和设计

HBase原理和设计
一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。   简介 HBase —— Hadoop Database的简称,Google BigT...

5个月前 (09-19) 2024℃ 12喜欢

大数据平台

AdMaster 如何驾驭百亿级Key实时Redis 集群

AdMaster 如何驾驭百亿级Key实时Redis 集群
注:本文转载自公众号AdMaster   作为技术驱动的营销数据公司,AdMaster每天处理超过100亿的数据请求,每天对1000亿数据进行上千种维度计算,每天增加超过5T数据量,为来自各行业的客户提供7*24小时数据应用服务。在这样领先的技术布局下,无论是数据实时...

6个月前 (09-06) 1376℃ 4喜欢

Kylin

Apache Kylin中对上亿字符串的精确Count_Distinct示例

Apache Kylin中对上亿字符串的精确Count_Distinct示例
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对...

6个月前 (08-26) 2528℃ 11喜欢

Kylin

在Apache Kylin中使用Count Distinct

在Apache Kylin中使用Count Distinct
在OLAP多维分析中,Count Distinct(去重计数)是一种非常常用的指标度量,比如一段时间内的UV、活跃用户数等等; 从1.5.3开始,Apache Kylin提供了两种Count Distinct计算方式,一种是近似的,一种是精确的,精确的Count Distinct...

6个月前 (08-25) 1631℃ 5喜欢

Kylin

Apache Kylin使用手册和管理手册中文版

Apache Kylin使用手册和管理手册中文版
Apache Kylin使用手册和管理手册中文版,很实用。 使用手册: 链接: http://pan.baidu.com/s/1nuLz3Bz 密码: b93d 管理手册: 链接: http://pan.baidu.com/s/1skX26L3 密码: s2s4 如果觉得本博...

6个月前 (08-23) 2129℃ 11喜欢

Hive

Java写本地ORC文件(Hive2 API)

Java写本地ORC文件(Hive2 API)
Hive2.0以后,使用了新的API来读写ORC文件(https://orc.apache.org)。 本文中的代码,在本地使用Java程序生成ORC文件,然后加载到Hive表。 代码如下: package com.lxw1234.hive.orc; import org....

7个月前 (07-25) 1981℃ 2喜欢

大数据平台

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续
关键字:互联网、大数据、数据仓库、数据平台、架构 导读: 整体架构 数据采集 离线计算 实时计算 多维分析OLAP 机器学习 Ad-Hoc查询 数据可视化 上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,...

7个月前 (07-21) 4580℃ 14喜欢

大数据平台

一站式用户自助数据接入与分析平台

一站式用户自助数据接入与分析平台
一站式用户自助数据接入与分析平台,也可以当做一个提供大数据分析服务的云平台,用户可以基于平台数据仓库中已有的事实表和维度表(有访问权限),自助建立分析模型,进行OLAP分析与可视化;也可以将自己的数据接入到平台,在已接入的数据上自助建立分析模型,进行OLAP分析与可视化。对于前者...

7个月前 (07-13) 3161℃ 7喜欢

Hadoop

Yarn公平调度器Fair Scheduler根据用户组分配资源池

Yarn公平调度器Fair Scheduler根据用户组分配资源池
之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上,介绍根据用户组管理分配资源池的配置。 假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户...

8个月前 (06-23) 1937℃ 5喜欢

Kylin

开源数据可视化工具(For Apache Kylin)使用说明

开源数据可视化工具(For Apache Kylin)使用说明
Apache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。 原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的...

8个月前 (06-20) 12010℃ 23喜欢

Kylin

开源OLAP+数据可视化工具–For Apache Kylin

开源OLAP+数据可视化工具–For Apache Kylin
关键字:caravel、olap、kylin、数据可视化 经过我和好友Rocky一段时间的修改和调试,现已将初版的Caravel For Kylin上传至Github,供大家使用,如有发现任何的问题,可通过本博客或github联系我们。 GitHub地址: https://git...

8个月前 (06-13) 5516℃ 5喜欢