lxw的大数据田地Hadoop/Hive/HBase/Spark/Java-Page 2

唯品会海量实时OLAP分析技术升级之路

本文转载自公众号 DBAplus社群，作者：谢麟炯谢麟炯，唯品会大数据平台高级技术架构经理，主要负责大数据自助多维分析平台，离线数据开发平台及分析引擎团队的开发和管理工作，加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。海量数据实...

7年前 (2017-07-17) 37883℃ 92喜欢

Hive

Impala安装配置–RPM方式

关于Impala Impala是SQL ON Hadoop框架，和它类似的有Presto、Drill等，但它和Hive区别较大，请参考下面的介绍。下面的介绍来自百度百科： Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的H...

8年前 (2017-06-07) 28804℃ 50喜欢

Hive

轻松配置Hive On Tez

关于Apche Tez，请自行搜索，较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。我的环境： hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

8年前 (2017-06-06) 29103℃ 10喜欢

Hadoop

HDFS-HA集群中客户端如何找到Active NameNode

Hadoop2.0中，HDFS实现了HA，具体实现及原理请网上搜索。其中HDFS的配置包含以下几个必须参数： <property> <name>dfs.nameservices</name> <value>cdh5</valu...

8年前 (2017-05-31) 19595℃ 27喜欢

编程语言

Java加密Jar包和Class文件-防止反编译

众所周知，Java编译后的Jar包和Class文件，可以轻而易举的使用反编译工具（如JD-GUI）进行反编译，拿到源码。为了保护自己发布的Jar包和Class文件，采用的方式大多是混淆或加密（混淆工具如ProGuard），本文介绍的是采用jvmti方式对Class文件进行加密，使...

8年前 (2017-05-08) 43861℃ 57喜欢

Kylin

Apache Kylin优化之—Cube的高级设置

本文从apachekylin公众号系列文章整理。随着维度数目的增加，Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力，Apache Kylin 引入了一系列的高级设置，帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组（Aggregation G...

8年前 (2017-04-24) 18644℃ 39喜欢

Kylin

Apache Kylin优化–高级设置：聚合组（Aggregation Group）原理解析

本文转自apachekylin公众号。 “随着维度数目的增加，Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力，Apache Kylin 引入了一系列的高级设置，帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组（Aggregatio...

8年前 (2017-04-01) 20224℃ 32喜欢

Spark

SparkThriftServer的高可用-HA实现与配置

一个规模比较大，用户比较多的数据仓库/数据平台中，肯定会面临这两个问题：多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中，95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成，平台的开发和内部用户有十来个，Hive和SparkSQL的使用，自然也会面临...

8年前 (2017-03-09) 27590℃ 30喜欢

Spark

SparkThrfitServer多用户资源竞争与分配问题

如果使用SparkThrfitServer结合Hive来做即席查询，那么会遇到这样的问题，一个数据量很大的查询SQL把所有的资源全占了，导致后面的SQL都等待，尽管在等待的SQL只需要1秒就能完成，这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO，即先进先出，只要...

8年前 (2017-03-08) 14520℃ 14喜欢

Hadoop

主流开源SQL（on Hadoop）总结，不断改进的Hive始终遥遥领先

注：本文转自公众号大数据杂谈（BigdataTina2016）本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...

8年前 (2017-03-02) 20796℃ 39喜欢

大数据平台

开源ETL工具Kettle初试–远程执行任务

Kettle是一款国外开源的ETL以及简单的调度工具。官网：http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多，现在也集成了很多大数据相关的组件，比如：HDFS、MapReduce、HBas...

8年前 (2017-02-09) 30839℃ 38喜欢

大数据平台

写给大数据开发初学者的话5

至此，你的大数据平台底层架构已经成型了，其中包括了数据采集、数据存储与计算（离线和实时）、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。第九章：我的数据要对外通常对外（业务）提供数据访问，大体上包含以下方面：离线：比如，每天将前一天的数据提...

8年前 (2017-01-23) 18945℃ 37喜欢

Hadoop

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

注：本文针对的是使用命令行安装和配置CDH Hadoop，如果你使用RPM或者ClouderaManager，基本可以忽略此文。 Hadoop在计算和存储过程中，支持对文件进行压缩，可以使用hadoop checknative命令来查看：其中，像zlib、lz4、bzip2，...

8年前 (2017-01-18) 16937℃ 9喜欢

大数据平台

SQL for ElasticSearch—Crate.io简介

再次调研这个东西，是为了满足下面的需求：一张拥有50+字段的表，记录数大概5亿-10亿；需要对每个字段进行模糊搜索，并要求即时响应结果；需要做一些简单的聚合统计；看到这个需求，肯定想到搜索，那么就是ElasticSearch了。但ES对SQL支持太弱了，因此想使用CrateD...

8年前 (2017-01-11) 18008℃ 11喜欢

大数据平台

2016年大数据80篇爆款文章：这一年你追过的那些技术

注：本文转自微信公众号大数据杂谈 BigdataTina2016 2016年即将过去，各位大数据的程序员们，是否觉得这一年都不断的追着新技术跑？这个大数据公众号是今年一月底创立的，一年过去，我们积累了不少好内容。回过头来我们看看这一年的脚印，这里我按照文章内容...

8年前 (2016-12-23) 16011℃ 29喜欢

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

热门排行

唯品会海量实时OLAP分析技术升级之路

Impala安装配置–RPM方式

轻松配置Hive On Tez

HDFS-HA集群中客户端如何找到Active NameNode

Java加密Jar包和Class文件-防止反编译

Apache Kylin优化之—Cube的高级设置

Apache Kylin优化–高级设置：聚合组（Aggregation Group）原理解析

SparkThriftServer的高可用-HA实现与配置

SparkThrfitServer多用户资源竞争与分配问题

主流开源SQL（on Hadoop）总结，不断改进的Hive始终遥遥领先

开源ETL工具Kettle初试–远程执行任务

写给大数据开发初学者的话5

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

SQL for ElasticSearch—Crate.io简介

2016年大数据80篇爆款文章：这一年你追过的那些技术