Hadoop2.0中,HDFS实现了HA,具体实现及原理请网上搜索。其中HDFS的配置包含以下几个必须参数:
<property>
<name>dfs.nameservices</name>
<value>cdh5</valu...
8年前 (2017-05-31) 19696℃
27喜欢
注:本文转自公众号 大数据杂谈 (BigdataTina2016)
本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...
8年前 (2017-03-02) 20841℃
39喜欢
注:本文针对的是使用命令行安装和配置CDH Hadoop,如果你使用RPM或者ClouderaManager,基本可以忽略此文。
Hadoop在计算和存储过程中,支持对文件进行压缩,可以使用hadoop checknative命令来查看:
其中,像zlib、lz4、bzip2,...
8年前 (2017-01-18) 16983℃
9喜欢
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。
一般常用的做法有:
MapReduce中使用1个Reduce来生成;
Hive中使用row_number分析函数来生成,其实也是1个Reduce;
借助HBase或Redis或Z...
8年前 (2016-12-06) 23013℃
41喜欢
之前有文章《Hadoop多用户资源管理–Fair Scheduler介绍与配置》介绍过在Yarn中使用Fair Scheduler根据用户名为多用户管理分配资源。文本在其基础之上,介绍根据用户组管理分配资源池的配置。
假设在生产环境Yarn中,总共有四类用户需要使用集群,开发用户...
9年前 (2016-06-23) 18072℃
16喜欢
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。
一、角色出演
如上图所示,HDFS存储相关角色与功能如下:
Client:客户端,系统使用者,调用HDFS API操作文件;与NN交...
9年前 (2016-04-22) 23656℃
97喜欢
关键字:Hadoop 多用户、资源、fair scheduler
在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等...
9年前 (2015-10-26) 38331℃
31喜欢
关键字:hadoop hdfs 小文件、appendToFile、getmerge
众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。
在使用HDFS的过程中,应尽量避免生成过多的小文件。
本文以TextFile为例...
9年前 (2015-09-10) 28911℃
13喜欢
关键字:Hive Orc、Java API 读写Hive OrcFile
接前面的文章 《Java API 读取Hive Orc文件》,本文中介绍使用Java API写Orc格式的文件。
下面的代码将三行数据:
张三,20
李四,22
王五,30
写入HDFS上的/tmp/lxw...
9年前 (2015-08-18) 23169℃
9喜欢
关键字:Hive Orc、Java API 读取Hive OrcFile
Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。
在实际业务场景中,可能需要使用Java API,或者M...
9年前 (2015-08-18) 19877℃
16喜欢
关键字:hdfs fsck、block、locations
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。
fsck命令必须由HDFS超级用户来执行,普通用户无权限。
[hadoop@dev ~]$ hdfs fs...
9年前 (2015-08-13) 68536℃
43喜欢
关键字:hdfs元数据、fsimage、edits
上一篇文章《查看HDFS的元数据文件fsimage和编辑日志edits(1)》中介绍了HDFS文件系统中fsimage和eidts文件的作用以及查看fsimage的方法。
本文接着介绍查看edits文件的方法。
HDFS查看ed...
9年前 (2015-08-05) 15699℃
5喜欢
关键字:hdfs元数据、fsimage、edits
在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。
其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edi...
9年前 (2015-08-05) 29905℃
24喜欢
关键字:MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories
一般情况下,传递给MapReduc...
10年前 (2015-07-08) 25163℃
13喜欢
在一个项目中,通过命令行提交MR,在捕获标准输出和标准错误时候发现,hadoop jar 命令提交mr正常执行,控制台打印出来的信息都被放到标准错误中了。
比如,执行wordcount,把标准错误重定向到error.log文件中:
hadoop jar hadoop-exa...
10年前 (2015-05-07) 13344℃
6喜欢