微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

标签:hadoop

Hadoop

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩

快速为CDH版本HADOOP安装配置Lzo和Snappy压缩
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。 Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看: 其中,像zlib、lz4、bzip2,...

6天前 114℃ 0喜欢

Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

2个月前 (12-06) 930℃ 4喜欢

Hadoop

Yarn公平调度器Fair Scheduler根据用户组分配资源池

Yarn公平调度器Fair Scheduler根据用户组分配资源池
之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上,介绍根据用户组管理分配资源池的配置。 假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户...

7个月前 (06-23) 1796℃ 5喜欢

Hadoop

【漫画解读】HDFS存储原理

【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交...

9个月前 (04-22) 2499℃ 16喜欢

Hadoop

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Hadoop多用户资源管理–Fair Scheduler介绍与配置
关键字:Hadoop 多用户、资源、fair scheduler 在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等...

1年前 (2015-10-26) 8548℃ 8喜欢

Hadoop

合并HDFS和本地文件系统中的小文件

合并HDFS和本地文件系统中的小文件
关键字:hadoop hdfs 小文件、appendToFile、getmerge 众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。 在使用HDFS的过程中,应尽量避免生成过多的小文件。 本文以TextFile为例...

1年前 (2015-09-10) 4190℃ 2喜欢

Hadoop

Java API 写 Hive Orc文件

Java API 写 Hive Orc文件
关键字:Hive Orc、Java API 读写Hive OrcFile 接前面的文章 《Java API 读取Hive Orc文件》,本文中介绍使用Java API写Orc格式的文件。 下面的代码将三行数据: 张三,20 李四,22 王五,30 写入HDFS上的/tmp/lxw...

1年前 (2015-08-18) 3460℃ 4喜欢

Hadoop

Java API 读取Hive Orc文件

Java API 读取Hive Orc文件
关键字:Hive Orc、Java API 读取Hive OrcFile Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。 在实际业务场景中,可能需要使用Java API,或者M...

1年前 (2015-08-18) 3782℃ 5喜欢

Hadoop

查看HDFS的元数据文件fsimage和编辑日志edits(2)

查看HDFS的元数据文件fsimage和编辑日志edits(2)
关键字:hdfs元数据、fsimage、edits 上一篇文章《查看HDFS的元数据文件fsimage和编辑日志edits(1)》中介绍了HDFS文件系统中fsimage和eidts文件的作用以及查看fsimage的方法。 本文接着介绍查看edits文件的方法。 HDFS查看ed...

1年前 (2015-08-05) 2049℃ 1喜欢

Hadoop

查看HDFS的元数据文件fsimage和编辑日志edits(1)

查看HDFS的元数据文件fsimage和编辑日志edits(1)
关键字:hdfs元数据、fsimage、edits 在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。 其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edi...

1年前 (2015-08-05) 3378℃ 2喜欢

Hadoop

hadoop mapreduce程序jar包版本冲突解决方法

写MR程序时往往会使用到第三方包, 如果这些包在集群中不存在, 可以通过多种方式提交到集群供 MR 程序使用, 但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决? 下面是我碰到的问题及解决方式, 简单记录如下, 碰到同样问题的同学可以参考下: 昨天使用 ...

2年前 (2015-04-18) 1678℃ 3喜欢