微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
Hive

[一起学Hive]之十八-Hive UDF开发

[一起学Hive]之十八-Hive UDF开发
关键字:Hive udf、UDF、GenericUDF Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。 开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hi...

2年前 (2015-08-17) 6873℃ 1喜欢

其他

使用SecureCRT的端口转发功能访问其他内网机器

使用SecureCRT的端口转发功能访问其他内网机器
关键字:SecureCRT 端口转发 在实际工作环境中,经常有这样的网络环境,如图所示: 机器A和机器B处于同一个内网环境,机器A有外网IP,可以供我的机器访问,但是我还想通过自己的机器访问机器B。 显然直接访问不了。比如:机器B为Hadoop的ResourceManager,...

2年前 (2015-08-11) 3693℃ 1喜欢

Spark

在Yarn上运行spark-shell和spark-sql命令行

在Yarn上运行spark-shell和spark-sql命令行
关键字:spark-shell on yarn、spark-sql on yarn 前面的文章《Spark On Yarn:提交Spark应用程序到Yarn》介绍了将Spark应用程序提交到Yarn上运行。有时候在做开发测试的时候,需要使用spark-shell和spark-sq...

2年前 (2015-08-11) 9631℃ 3喜欢

Hive

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling
关键字:Hive数据取样、Hive Sampling、Hive TABLESAMPLE. 在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。 16.1 数据块取样(Block Sam...

2年前 (2015-08-06) 5852℃ 0喜欢

Hadoop

查看HDFS的元数据文件fsimage和编辑日志edits(2)

查看HDFS的元数据文件fsimage和编辑日志edits(2)
关键字:hdfs元数据、fsimage、edits 上一篇文章《查看HDFS的元数据文件fsimage和编辑日志edits(1)》中介绍了HDFS文件系统中fsimage和eidts文件的作用以及查看fsimage的方法。 本文接着介绍查看edits文件的方法。 HDFS查看ed...

2年前 (2015-08-05) 3080℃ 1喜欢

Hadoop

查看HDFS的元数据文件fsimage和编辑日志edits(1)

查看HDFS的元数据文件fsimage和编辑日志edits(1)
关键字:hdfs元数据、fsimage、edits 在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。 其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edi...

2年前 (2015-08-05) 5364℃ 3喜欢

其他

可用的google搜索整理

可用的google搜索整理
关键字:google、google代理 如果不翻墙的话,可以使用以下代理页面进行google搜索,速度还都不错。 https://g.lightss.org https://guge.io https://duliziyou.com https://goge.ml http://...

2年前 (2015-08-03) 1859℃ 3喜欢

HBase

华为开源Astro(SparkSQL On HBase)试用

华为开源Astro(SparkSQL On HBase)试用
关键字:华为Astro、SparkSQL On HBase、SQL On HBase 华为最近开源的SparkSQL On HBase,又名Astro, 整合了Spark、SparkSQL、HBase,是继Phoenix后,SQL On HBase的又一利器。 至于实际用起来怎么...

2年前 (2015-07-30) 5900℃ 8喜欢

Hive

Hive和SparkSQL自定义UDF中依赖第三方Jar包

Hive和SparkSQL自定义UDF中依赖第三方Jar包
关键字:Hive udf、SparkSQL udf、 第三方jar包 当在Hive和SparkSQL中使用的自定义UDF函数需要依赖第三方jar包时,可以将所有jar包通过类似于fatjar等插件打在一起,但显得太麻烦、太累赘了。 其实只需要在运行时候将依赖的第三方jar包和ud...

2年前 (2015-07-23) 5367℃ 4喜欢

大数据平台

如何构建用户画像

如何构建用户画像
关键字:用户画像、标签 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖 掘潜在的商业...

2年前 (2015-07-23) 3930℃ 10喜欢

编程语言

中文分词工具-IKAnalyzer下载及使用

中文分词工具-IKAnalyzer下载及使用
关键字:中文分词、IKAnalyzer 最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。 关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最...

2年前 (2015-07-22) 11120℃ 23喜欢

Hive

[一起学Hive]之十六-Hive的WEB页面接口-HWI

[一起学Hive]之十六-Hive的WEB页面接口-HWI
关键字:Hive WEB接口、Hive HWI Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据...

2年前 (2015-07-20) 6658℃ 2喜欢

Spark

Spark On Yarn:提交Spark应用程序到Yarn

Spark On Yarn:提交Spark应用程序到Yarn
关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用。 要把Spark...

2年前 (2015-07-15) 11623℃ 7喜欢