我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于R...
4年前 (2017-07-26) 17752℃
24喜欢
本文转载自公众号 DBAplus社群 , 作者:谢麟炯
谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。
海量数据实...
4年前 (2017-07-17) 29076℃
90喜欢
关于Impala
Impala是SQL ON Hadoop框架,和它类似的有Presto、Drill等,但它和Hive区别较大,请参考下面的介绍。
下面的介绍来自百度百科:
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的H...
4年前 (2017-06-07) 20542℃
27喜欢
关于Apche Tez,请自行搜索,较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。
我的环境:
hadoop-2.6.0-cdh5.8.3
apache-hive-2.1.1-bin
下载Apache Tez
wget http://www-us....
4年前 (2017-06-06) 20438℃
8喜欢
Hadoop2.0中,HDFS实现了HA,具体实现及原理请网上搜索。其中HDFS的配置包含以下几个必须参数:
<property>
<name>dfs.nameservices</name>
<value>cdh5</valu...
4年前 (2017-05-31) 13379℃
21喜欢
众所周知,Java编译后的Jar包和Class文件,可以轻而易举的使用反编译工具(如JD-GUI)进行反编译,拿到源码。为了保护自己发布的Jar包和Class文件,采用的方式大多是混淆或加密(混淆工具如ProGuard),本文介绍的是采用jvmti方式对Class文件进行加密,使...
4年前 (2017-05-08) 29602℃
19喜欢
本文从apachekylin公众号系列文章整理。
随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation G...
4年前 (2017-04-24) 13759℃
37喜欢
本文转自apachekylin公众号。
“随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregatio...
4年前 (2017-04-01) 14439℃
29喜欢
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...
4年前 (2017-03-09) 20387℃
27喜欢
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。
Spark默认的调度策略为FIFO,即先进先出,只要...
4年前 (2017-03-08) 10422℃
13喜欢
注:本文转自公众号 大数据杂谈 (BigdataTina2016)
本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...
4年前 (2017-03-02) 17219℃
33喜欢
Kettle是一款国外开源的ETL以及简单的调度工具。
官网:http://www.pentaho.com/product/data-integration
之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...
4年前 (2017-02-09) 24170℃
33喜欢
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。
第九章:我的数据要对外
通常对外(业务)提供数据访问,大体上包含以下方面:
离线:比如,每天将前一天的数据提...
4年前 (2017-01-23) 14849℃
37喜欢
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。
Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看:
其中,像zlib、lz4、bzip2,...
4年前 (2017-01-18) 12819℃
7喜欢
再次调研这个东西,是为了满足下面的需求:
一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计;
看到这个需求,肯定想到搜索,那么就是ElasticSearch了。但ES对SQL支持太弱了,因此想使用CrateD...
4年前 (2017-01-11) 13267℃
9喜欢