微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

lxw1234@qq.com的文章

Spark

SparkThriftServer的高可用-HA实现与配置

SparkThriftServer的高可用-HA实现与配置
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...

3周前 (03-09) 367℃ 1喜欢

Spark

SparkThrfitServer多用户资源竞争与分配问题

SparkThrfitServer多用户资源竞争与分配问题
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO,即先进先出,只要...

3周前 (03-08) 281℃ 2喜欢

大数据平台

开源ETL工具Kettle初试–远程执行任务

开源ETL工具Kettle初试–远程执行任务
Kettle是一款国外开源的ETL以及简单的调度工具。 官网:http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...

2个月前 (02-09) 1340℃ 7喜欢

大数据平台

写给大数据开发初学者的话5

写给大数据开发初学者的话5
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。 第九章:我的数据要对外 通常对外(业务)提供数据访问,大体上包含以下方面: 离线:比如,每天将前一天的数据提...

2个月前 (01-23) 1829℃ 3喜欢

Hadoop

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。 Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看: 其中,像zlib、lz4、bzip2,...

2个月前 (01-18) 722℃ 1喜欢

大数据平台

SQL for ElasticSearch—Crate.io简介

SQL for ElasticSearch—Crate.io简介
再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计; 看到这个需求,肯定想到搜索,那么就是ElasticSearch了。但ES对SQL支持太弱了,因此想使用CrateD...

3个月前 (01-11) 1500℃ 7喜欢

大数据平台

2016年大数据80篇爆款文章:这一年你追过的那些技术

2016年大数据80篇爆款文章:这一年你追过的那些技术
注:本文转自微信公众号 大数据杂谈  BigdataTina2016   2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容...

3个月前 (12-23) 2757℃ 11喜欢

Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

4个月前 (12-06) 1997℃ 5喜欢

大数据平台

写给大数据开发初学者的话4

写给大数据开发初学者的话4
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 为什么Spark比MapReduce快。 使用SparkSQL代替Hive,更快的运行SQL。 使用Kafka完成数据的一次收集,多次消费架构。 自己可以...

4个月前 (11-29) 2745℃ 16喜欢

大数据平台

写给大数据开发初学者的话3

写给大数据开发初学者的话3
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集; 你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具; 你已...

4个月前 (11-23) 2592℃ 7喜欢

大数据平台

写给大数据开发初学者的话2

写给大数据开发初学者的话2
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 0和Hadoop2.0的区别; MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...

4个月前 (11-16) 3578℃ 9喜欢

大数据平台

写给大数据开发初学者的话

写给大数据开发初学者的话
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第...

5个月前 (11-10) 7037℃ 43喜欢