微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

lxw1234@qq.com的文章

Hive

Saiku结合Hive做大数据多维数据分析

Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。 注:Saiku社区版(Saiku CE)的下载地址为: http://communit...

10个月前 (05-13) 4753℃ 9喜欢

Kylin

Apache Kylin原理学习之Cube的创建与Build

Apache Kylin原理学习之Cube的创建与Build
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来...

11个月前 (05-12) 3743℃ 10喜欢

大数据平台

最全的“大数据”学习资源

最全的“大数据”学习资源
资源列表:   关系数据库管理系统(RDBMS)   框架   分布式编程   分布式文件系统   文件数据模型   Key -Map 数据模型   键-值数据模型   图形数据模型   NewSQL数据库   列式数据库   时间序列数据库   类SQL处理   数据摄取  ...

11个月前 (05-09) 4194℃ 6喜欢

Kylin

使用Saiku+Kylin构建多维分析OLAP平台

使用Saiku+Kylin构建多维分析OLAP平台
关于Kylin的介绍和使用请参考之前的文章 《分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例》 Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译...

11个月前 (05-03) 7923℃ 10喜欢

其他

内容已被屏蔽

内容已被屏蔽
内容已被屏蔽。。。。。。       Enjoy it! 您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。             &nbs...

11个月前 (05-03) 3345℃ 7喜欢

编程语言

常用的正则表达式

常用的正则表达式
1 . 校验密码强度 密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。 ^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ 2. 校验中文 字符串仅能是中文。 ^[\\u4e00-\\u9fa5]{0,}$ ...

11个月前 (04-26) 1278℃ 3喜欢

Hadoop

【漫画解读】HDFS存储原理

【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交...

11个月前 (04-22) 2943℃ 22喜欢

大数据平台

数据分析及制作工具

数据分析及制作工具
微信大数据分析工具 新媒体指数:http://www.gsdata.cn 数据可视化工具 百度ECharts:http://echarts.baidu.com/ Cytoscape:http://www.cytoscape.org/ 图表秀:http://www.tubiaox...

11个月前 (04-22) 1532℃ 0喜欢

Hive

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index
关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,...

12个月前 (04-08) 3808℃ 9喜欢

Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive

更高的压缩比,更好的性能–使用ORC文件格式优化Hive
关键字:orc、index、hive Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的...

12个月前 (04-05) 4876℃ 8喜欢

Hive

记录一下Hive2.0安装配置遇到的问题

记录一下Hive2.0安装配置遇到的问题
关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

12个月前 (03-31) 2624℃ 3喜欢

其他

一个用于将各种输入法细胞分类词库转换成文本的工具

一个用于将各种输入法细胞分类词库转换成文本的工具
关键字:输入法细胞词库、深蓝词库转换、分类词库 在做中文文本处理的相关工作(比如中文分词、中文分类等)过程中,通常需要扩展词库,分类词库尤佳,而各个输入法的细胞词库中,都提供了已经分类的细胞词库,但这些文件格式通常都是专用的非文本文件,之前找到了一个将各种输入法细胞词库文件转换成...

1年前 (2016-03-24) 1060℃ 0喜欢

大数据平台

从数据仓库到大数据,数据平台这25年是怎样进化的?

从数据仓库到大数据,数据平台这25年是怎样进化的?
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...

1年前 (2016-03-23) 2558℃ 4喜欢

编程语言

Linux Shell中使用awk完成两个文件的关联Join

Linux Shell中使用awk完成两个文件的关联Join
关键字:shell、awk、join Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。 先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐...

1年前 (2016-03-11) 2502℃ 8喜欢