微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
Hadoop

合并HDFS和本地文件系统中的小文件

合并HDFS和本地文件系统中的小文件
关键字:hadoop hdfs 小文件、appendToFile、getmerge 众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。 在使用HDFS的过程中,应尽量避免生成过多的小文件。 本文以TextFile为例...

2年前 (2015-09-10) 5159℃ 3喜欢

Spark

Spark1.5发布

Spark1.5发布
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。 DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目...

2年前 (2015-09-10) 2122℃ 3喜欢

数据仓库/数据库

数据仓库中历史拉链表的更新方法

数据仓库中历史拉链表的更新方法
关键字:数据仓库、极限存储、历史拉链表、更新 在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》, 使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。 本文中假设: 数据仓库中订单历史表的刷新频率为一天,当...

2年前 (2015-08-27) 12270℃ 31喜欢

大数据平台

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
关键字:互联网、大数据、数据仓库、数据平台、架构 导读: 整体架构 数据采集 数据存储与分析 数据共享 数据应用 实时计算 任务调度与监控 元数据管理 总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网...

2年前 (2015-08-19) 20965℃ 67喜欢

Spark

Spark On Yarn系列文章

Spark On Yarn系列文章
Spark On Yarn:提交Spark应用程序到Yarn 在Yarn上运行spark-shell和spark-sql命令行 SparkSQL On Yarn with Hive,操作和访问Hive表   持续更新中。。。 您可以关注 我的博客,或者 加入邮件列表...

2年前 (2015-08-19) 6130℃ 7喜欢

Spark

SparkSQL On Yarn with Hive,操作和访问Hive表

SparkSQL On Yarn with Hive,操作和访问Hive表
关键字:SparkSQL on Yarn、SparkSQL Hive On Yarn 前面的文章介绍过如何向Yarn中提交Spark应用程序《Spark On Yarn:提交Spark应用程序到Yarn》, 以及在Yarn上运行spark-shell和spark-sql命令行《在...

2年前 (2015-08-19) 5284℃ 8喜欢

Hadoop

Java API 写 Hive Orc文件

Java API 写 Hive Orc文件
关键字:Hive Orc、Java API 读写Hive OrcFile 接前面的文章 《Java API 读取Hive Orc文件》,本文中介绍使用Java API写Orc格式的文件。 下面的代码将三行数据: 张三,20 李四,22 王五,30 写入HDFS上的/tmp/lxw...

2年前 (2015-08-18) 4123℃ 4喜欢

Hadoop

Java API 读取Hive Orc文件

Java API 读取Hive Orc文件
关键字:Hive Orc、Java API 读取Hive OrcFile Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。 在实际业务场景中,可能需要使用Java API,或者M...

2年前 (2015-08-18) 4405℃ 5喜欢

编程语言

Java中ArrayList和HashMap的排序

Java中ArrayList和HashMap的排序
关键字:ArrayList排序、HashMap排序、集合排序、升序、降序、key排序、value排序 最近在需求中经常需要对Java的集合,特别是Map根据key或者value进行升序降序排序,在这里整理记录一下,对java不熟,用于以后备查。 主要使用Collections提供...

2年前 (2015-08-18) 6135℃ 2喜欢

Hive

[一起学Hive]之十八-Hive UDF开发

[一起学Hive]之十八-Hive UDF开发
关键字:Hive udf、UDF、GenericUDF Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。 开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hi...

2年前 (2015-08-17) 5659℃ 1喜欢

其他

使用SecureCRT的端口转发功能访问其他内网机器

使用SecureCRT的端口转发功能访问其他内网机器
关键字:SecureCRT 端口转发 在实际工作环境中,经常有这样的网络环境,如图所示: 机器A和机器B处于同一个内网环境,机器A有外网IP,可以供我的机器访问,但是我还想通过自己的机器访问机器B。 显然直接访问不了。比如:机器B为Hadoop的ResourceManager,...

2年前 (2015-08-11) 3145℃ 1喜欢

Spark

在Yarn上运行spark-shell和spark-sql命令行

在Yarn上运行spark-shell和spark-sql命令行
关键字:spark-shell on yarn、spark-sql on yarn 前面的文章《Spark On Yarn:提交Spark应用程序到Yarn》介绍了将Spark应用程序提交到Yarn上运行。有时候在做开发测试的时候,需要使用spark-shell和spark-sq...

2年前 (2015-08-11) 8461℃ 3喜欢

Hive

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling
关键字:Hive数据取样、Hive Sampling、Hive TABLESAMPLE. 在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sam...

2年前 (2015-08-06) 4998℃ 0喜欢