Apache版本:
Hadoop官网:http://hadoop.apache.org/
Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/
Hadoop历史版本下载:http://archive.apac...
10年前 (2015-05-05) 12466℃
14喜欢
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...
10年前 (2015-05-05) 22733℃
27喜欢
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。
Hive版本为 apache-hive-0.13.1
数据准备:
2015-03,2...
10年前 (2015-04-24) 84562℃
188喜欢
继续学习这四个分析函数。
注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
Hive版本为 apache-hive-0.13.1
数据准备:
cookie1,2015-04-10 10:00:02,url2
cookie1,2015-0...
10年前 (2015-04-24) 160628℃
178喜欢
这两个序列分析函数不是很常用,这里也介绍一下。
注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
Hive版本为 apache-hive-0.13.1
数据准备:
d1,user1,1000
d1,user2,2000
d1,user3...
10年前 (2015-04-24) 62185℃
85喜欢
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。
Hive版本为 apache-hive-0.13.1
注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )
数据准备:
co...
10年前 (2015-04-24) 72396℃
108喜欢
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。
今天先看几个基础的,SUM、AVG、MIN、MAX。
用于实现分组内所有和连续累积的统计。
Hive版本为 apache-hive-0.13.1
数据准备
CREATE E...
10年前 (2015-04-23) 100085℃
226喜欢
准备开发一个任务调度系统,其中使用Neo4j来保存和查询任务之间的依赖关系,
整理了一个服务类,记录一下。
使用的Neo4j版本为:2.1.3
服务类:
import java.io.File;
import java.io.IO...
10年前 (2015-04-22) 9456℃
1喜欢
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。
关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。
例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%]
支持度3%:意味3%顾客同时购买牛...
10年前 (2015-04-21) 13174℃
11喜欢
计算及商业评论杂志给出了2015年Hadoop的10个预测。既包括了企业端的Hadoop(增长率,整合),也包括了技术整合,像Spark vs Hadoop和SQL for Hadoop。
这是你需要了解的2015年大数据分析工具的指南。
1. 市场份额增长至$2.2bn
根...
10年前 (2015-04-20) 5307℃
1喜欢
因为需求,只写了年月日时的自动转换。
public static Date convertStringToDate(String time) {
String separator_yM = "";
String separator...
10年前 (2015-04-19) 6125℃
0喜欢
写MR程序时往往会使用到第三方包, 如果这些包在集群中不存在, 可以通过多种方式提交到集群供 MR 程序使用, 但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决?
下面是我碰到的问题及解决方式, 简单记录如下, 碰到同样问题的同学可以参考下:
昨天使用 ...
10年前 (2015-04-18) 11383℃
11喜欢
1.Hadoop集群可以运行的3个模式?
单机(本地)模式
伪分布式模式
全分布式模式
2. 单机(本地)模式中的注意点?
在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行M...
10年前 (2015-04-17) 22850℃
37喜欢
背景
大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。
这些任务需要不同的运行环境,并且除了定时运行,各种类型...
10年前 (2015-04-17) 631199℃
698喜欢
环境配置:
hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)
hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)
hive-0.10.0-cdh4.3.0
一、查询性能比较...
10年前 (2015-04-17) 31366℃
55喜欢