微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
大数据平台

谈谈”取数”的那些事儿

谈谈”取数”的那些事儿
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。 作为一个多年从事数据相关的开发者,深受“...

2周前 (08-03) 362℃ 3喜欢

大数据平台

关于Redis的数据清理

关于Redis的数据清理
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于R...

3周前 (07-26) 385℃ 2喜欢

大数据平台

唯品会海量实时OLAP分析技术升级之路

唯品会海量实时OLAP分析技术升级之路
本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实...

1个月前 (07-17) 1275℃ 9喜欢

Hive

Impala安装配置–RPM方式

Impala安装配置–RPM方式
关于Impala Impala是SQL ON Hadoop框架,和它类似的有Presto、Drill等,但它和Hive区别较大,请参考下面的介绍。 下面的介绍来自百度百科: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的H...

2个月前 (06-07) 852℃ 3喜欢

Hive

轻松配置Hive On Tez

轻松配置Hive On Tez
关于Apche Tez,请自行搜索,较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。 我的环境: hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

2个月前 (06-06) 1035℃ 1喜欢

编程语言

Java加密Jar包和Class文件-防止反编译

Java加密Jar包和Class文件-防止反编译
众所周知,Java编译后的Jar包和Class文件,可以轻而易举的使用反编译工具(如JD-GUI)进行反编译,拿到源码。为了保护自己发布的Jar包和Class文件,采用的方式大多是混淆或加密(混淆工具如ProGuard),本文介绍的是采用jvmti方式对Class文件进行加密,使...

3个月前 (05-08) 1401℃ 2喜欢

Kylin

Apache Kylin优化之—Cube的高级设置

Apache Kylin优化之—Cube的高级设置
本文从apachekylin公众号系列文章整理。 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation G...

4个月前 (04-24) 2010℃ 12喜欢

Spark

SparkThriftServer的高可用-HA实现与配置

SparkThriftServer的高可用-HA实现与配置
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...

5个月前 (03-09) 2424℃ 4喜欢

Spark

SparkThrfitServer多用户资源竞争与分配问题

SparkThrfitServer多用户资源竞争与分配问题
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO,即先进先出,只要...

5个月前 (03-08) 1490℃ 4喜欢

大数据平台

开源ETL工具Kettle初试–远程执行任务

开源ETL工具Kettle初试–远程执行任务
Kettle是一款国外开源的ETL以及简单的调度工具。 官网:http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...

6个月前 (02-09) 4206℃ 15喜欢

大数据平台

写给大数据开发初学者的话5

写给大数据开发初学者的话5
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。 第九章:我的数据要对外 通常对外(业务)提供数据访问,大体上包含以下方面: 离线:比如,每天将前一天的数据提...

7个月前 (01-23) 5342℃ 14喜欢

Hadoop

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。 Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看: 其中,像zlib、lz4、bzip2,...

7个月前 (01-18) 2222℃ 6喜欢