微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
Hive

Hive和SparkSQL自定义UDF中依赖第三方Jar包

Hive和SparkSQL自定义UDF中依赖第三方Jar包
关键字:Hive udf、SparkSQL udf、 第三方jar包 当在Hive和SparkSQL中使用的自定义UDF函数需要依赖第三方jar包时,可以将所有jar包通过类似于fatjar等插件打在一起,但显得太麻烦、太累赘了。 其实只需要在运行时候将依赖的第三方jar包和ud...

2年前 (2015-07-23) 4033℃ 3喜欢

大数据平台

如何构建用户画像

如何构建用户画像
关键字:用户画像、标签 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖 掘潜在的商业...

2年前 (2015-07-23) 3068℃ 9喜欢

编程语言

中文分词工具-IKAnalyzer下载及使用

中文分词工具-IKAnalyzer下载及使用
关键字:中文分词、IKAnalyzer 最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。 关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最...

2年前 (2015-07-22) 7610℃ 12喜欢

Hive

[一起学Hive]之十六-Hive的WEB页面接口-HWI

[一起学Hive]之十六-Hive的WEB页面接口-HWI
关键字:Hive WEB接口、Hive HWI Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据...

2年前 (2015-07-20) 4668℃ 2喜欢

Spark

Spark On Yarn:提交Spark应用程序到Yarn

Spark On Yarn:提交Spark应用程序到Yarn
关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用。 要把Spark...

2年前 (2015-07-15) 9059℃ 5喜欢

Hive

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
关键字:Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大...

2年前 (2015-07-15) 7512℃ 1喜欢

编程语言

Java实现的双向Map,支持重复Value

Java实现的双向Map,支持重复Value
关键字:Java双向Map、DualHashBidiMap 项目中有个需求,需要根据即时修改Map结构中的Value值,比如,将Map中所有value=V1的记录改成value=V2,key保持不变。 数据量比较大,遍历Map性能太差,这就需要根据Value先找到Key,然后去修...

2年前 (2015-07-14) 1780℃ 0喜欢