微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

 分类:Hadoop

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。 Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看: 其中,像zlib、lz4、bzip2,...

7个月前 (01-18) 2254℃ 6喜欢

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

9个月前 (12-06) 4117℃ 12喜欢

Yarn公平调度器Fair Scheduler根据用户组分配资源池

Yarn公平调度器Fair Scheduler根据用户组分配资源池
之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上,介绍根据用户组管理分配资源池的配置。 假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户...

1年前 (2016-06-23) 3512℃ 6喜欢

【漫画解读】HDFS存储原理

【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交...

1年前 (2016-04-22) 4297℃ 30喜欢

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Hadoop多用户资源管理–Fair Scheduler介绍与配置
关键字:Hadoop 多用户、资源、fair scheduler 在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等...

2年前 (2015-10-26) 11411℃ 12喜欢

合并HDFS和本地文件系统中的小文件

合并HDFS和本地文件系统中的小文件
关键字:hadoop hdfs 小文件、appendToFile、getmerge 众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。 在使用HDFS的过程中,应尽量避免生成过多的小文件。 本文以TextFile为例...

2年前 (2015-09-10) 6261℃ 4喜欢

Java API 写 Hive Orc文件

Java API 写 Hive Orc文件
关键字:Hive Orc、Java API 读写Hive OrcFile 接前面的文章 《Java API 读取Hive Orc文件》,本文中介绍使用Java API写Orc格式的文件。 下面的代码将三行数据: 张三,20 李四,22 王五,30 写入HDFS上的/tmp/lxw...

2年前 (2015-08-18) 4961℃ 5喜欢

Java API 读取Hive Orc文件

Java API 读取Hive Orc文件
关键字:Hive Orc、Java API 读取Hive OrcFile Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。 在实际业务场景中,可能需要使用Java API,或者M...

2年前 (2015-08-18) 5259℃ 5喜欢

查看HDFS的元数据文件fsimage和编辑日志edits(2)

查看HDFS的元数据文件fsimage和编辑日志edits(2)
关键字:hdfs元数据、fsimage、edits 上一篇文章《查看HDFS的元数据文件fsimage和编辑日志edits(1)》中介绍了HDFS文件系统中fsimage和eidts文件的作用以及查看fsimage的方法。 本文接着介绍查看edits文件的方法。 HDFS查看ed...

2年前 (2015-08-05) 3271℃ 1喜欢

查看HDFS的元数据文件fsimage和编辑日志edits(1)

查看HDFS的元数据文件fsimage和编辑日志edits(1)
关键字:hdfs元数据、fsimage、edits 在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。 其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edi...

2年前 (2015-08-05) 5710℃ 3喜欢

MapReduce和Hive支持递归子目录作为输入

MapReduce和Hive支持递归子目录作为输入
关键字:MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories 一般情况下,传递给MapReduc...

2年前 (2015-07-08) 5071℃ 1喜欢