微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者
Hive

Hive on Spark解析

Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最...

10年前 (2015-05-05) 22733℃ 27喜欢

Hive

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) Hive版本为 apache-hive-0.13.1 数据准备: d1,user1,1000 d1,user2,2000 d1,user3...

10年前 (2015-04-24) 62185℃ 85喜欢

Hive

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 Hive版本为 apache-hive-0.13.1 注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 ) 数据准备: co...

10年前 (2015-04-24) 72396℃ 108喜欢

Hive

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备 CREATE E...

10年前 (2015-04-23) 100085℃ 226喜欢

编程语言

图数据库Neo4j使用例子

图数据库Neo4j使用例子
准备开发一个任务调度系统,其中使用Neo4j来保存和查询任务之间的依赖关系, 整理了一个服务类,记录一下。 使用的Neo4j版本为:2.1.3   服务类:     import java.io.File; import java.io.IO...

10年前 (2015-04-22) 9456℃ 1喜欢

数据仓库/数据库

【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析

【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。 关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。 例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%] 支持度3%:意味3%顾客同时购买牛...

10年前 (2015-04-21) 13174℃ 11喜欢

大数据平台

2015年有关Hadoop的10个预测

2015年有关Hadoop的10个预测
计算及商业评论杂志给出了2015年Hadoop的10个预测。既包括了企业端的Hadoop(增长率,整合),也包括了技术整合,像Spark vs Hadoop和SQL for Hadoop。 这是你需要了解的2015年大数据分析工具的指南。 1. 市场份额增长至$2.2bn 根...

10年前 (2015-04-20) 5307℃ 1喜欢

Hadoop

hadoop mapreduce程序jar包版本冲突解决方法

写MR程序时往往会使用到第三方包, 如果这些包在集群中不存在, 可以通过多种方式提交到集群供 MR 程序使用, 但如果集群中存在的jar与用户MR程序用到的JAR存在版本冲突时该如何解决? 下面是我碰到的问题及解决方式, 简单记录如下, 碰到同样问题的同学可以参考下: 昨天使用 ...

10年前 (2015-04-18) 11383℃ 11喜欢

Hadoop

一些Hadoop面试题及答案

一些Hadoop面试题及答案
1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行M...

10年前 (2015-04-17) 22850℃ 37喜欢

大数据平台

大数据平台任务调度与监控系统

背景 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python等。 这些任务需要不同的运行环境,并且除了定时运行,各种类型...

10年前 (2015-04-17) 631199℃ 698喜欢