本文基于Spark1.3.1,介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。
我是在一台机器上完成了Spark的部署,其实也是集群,只不过Master和Slave都在一台机器上。如果是多台机器的集群部署,步骤完全一样,只不过多些Slave而...
10年前 (2015-06-05) 10132℃
4喜欢
Apache的历史归档地址,非常有用,里面包含了Hadoop的所有历史版本,Hive的历史版本,HBase的历史版本下载。
http://archive.apache.org/dist/
CentOS软件包:
http://vault.centos.org
如果觉得本博客对您有帮...
10年前 (2015-06-05) 6758℃
4喜欢
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。
三、Hive的安装配置
3.1 环境需求
Hadoop Client
Mysql
3.2 下载并解压Hive0.13.1安装包
下载地址:http://archive.apache.org/dis...
10年前 (2015-06-05) 20669℃
24喜欢
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。
本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础...
10年前 (2015-06-03) 53082℃
66喜欢
Hive函数大全–完整版
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapRedu...
10年前 (2015-06-03) 73437℃
79喜欢
1. Hive是什么
Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。
这是来自官方的解释。
简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻...
10年前 (2015-06-02) 39352℃
86喜欢
DataX介绍
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。
目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定...
10年前 (2015-05-29) 94348℃
110喜欢
京东技术开放日-京东大数据平台技术架构与应用视频、PPT下载
京东大数据基础架构和实践-王彦明
京东大数据基础架构和实践
链接: https://pan.baidu.com/s/1o9RlM0y
密码: ibkd
京东大数据分析与创新应用-邢志峰
京东大数据分析与...
10年前 (2015-05-28) 14917℃
20喜欢
Spark视频免费下载
1. Spark部署
http://pan.baidu.com/s/1bnCpUEz
提取码:3npw
2. Spark编程模型
http://pan.baidu.com/s/1o6Htm3o
提取码:jc64
3. Spark运行架构
http://pa...
10年前 (2015-05-27) 15888℃
19喜欢
一般情况下,Redis Client端发出一个请求后,通常会阻塞并等待Redis服务端处理,Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。
这有点类似于HBase的Scan,通常是Client端获取每一条记录都是一次RPC调用服务端。
在Redis中,...
10年前 (2015-05-26) 50077℃
35喜欢
这两天碰到一个需求,需要将日期yyyy-MM-dd、到秒粒度的时间戳,转换成十六进制(HexString)。
记录一下实现方法。
Java版本:
String day = "2015-05-21";
SimpleDateFormat sdf = new Si...
10年前 (2015-05-22) 14205℃
2喜欢
软件环境:
flume-ng-core-1.4.0-cdh5.0.0
spark-1.2.0-bin-hadoop2.3
流程说明:
Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来...
10年前 (2015-05-18) 19846℃
14喜欢
基于eclipse的Spark IDE可在 http://scala-ide.org/ 下载。
以WordCount为例:
package com.lxw.test
import org.apache.spark.{SparkConf, SparkContext}
...
10年前 (2015-05-15) 28434℃
22喜欢
Hive是支持索引的,但基本没用过,只做了下试验。
为什么大家都不用,肯定有它的弊端。
Hive索引机制:
在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量;
在执行索引字段查询时候,首先额...
10年前 (2015-05-08) 27587℃
57喜欢
在一个项目中,通过命令行提交MR,在捕获标准输出和标准错误时候发现,hadoop jar 命令提交mr正常执行,控制台打印出来的信息都被放到标准错误中了。
比如,执行wordcount,把标准错误重定向到error.log文件中:
hadoop jar hadoop-exa...
10年前 (2015-05-07) 13349℃
6喜欢