关键字:Hive udf、UDF、GenericUDF
Hive中,除了提供丰富的内置函数(见[一起学Hive]之二–Hive函数大全-完整版)之外,还允许用户使用Java开发自定义的UDF函数。
开发自定义UDF函数有两种方式,一个是继承org.apache.hadoop.hi...
9年前 (2015-08-17) 30312℃
7喜欢
关键字:hdfs fsck、block、locations
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。
fsck命令必须由HDFS超级用户来执行,普通用户无权限。
[hadoop@dev ~]$ hdfs fs...
9年前 (2015-08-13) 68565℃
43喜欢
关键字:SecureCRT 端口转发
在实际工作环境中,经常有这样的网络环境,如图所示:
机器A和机器B处于同一个内网环境,机器A有外网IP,可以供我的机器访问,但是我还想通过自己的机器访问机器B。
显然直接访问不了。比如:机器B为Hadoop的ResourceManager,...
9年前 (2015-08-11) 18545℃
4喜欢
关键字:spark-shell on yarn、spark-sql on yarn
前面的文章《Spark On Yarn:提交Spark应用程序到Yarn》介绍了将Spark应用程序提交到Yarn上运行。有时候在做开发测试的时候,需要使用spark-shell和spark-sq...
9年前 (2015-08-11) 38630℃
15喜欢
关键字:Hive数据取样、Hive Sampling、Hive TABLESAMPLE.
在Hive中提供了数据取样(SAMPLING)的功能,用来从Hive表中根据一定的规则进行数据取样,Hive中的数据取样支持分桶表取样和数据块取样。
16.1 数据块取样(Block Sam...
9年前 (2015-08-06) 27446℃
5喜欢
关键字:hdfs元数据、fsimage、edits
上一篇文章《查看HDFS的元数据文件fsimage和编辑日志edits(1)》中介绍了HDFS文件系统中fsimage和eidts文件的作用以及查看fsimage的方法。
本文接着介绍查看edits文件的方法。
HDFS查看ed...
9年前 (2015-08-05) 15710℃
5喜欢
关键字:hdfs元数据、fsimage、edits
在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。
其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edi...
9年前 (2015-08-05) 29917℃
24喜欢
关键字:google、google代理
如果不翻墙的话,可以使用以下代理页面进行google搜索,速度还都不错。
https://g.lightss.org
https://guge.io
https://duliziyou.com
https://goge.ml
http://...
9年前 (2015-08-03) 6312℃
4喜欢
关键词:Mahout、K-Means、中文聚类
一、数据准备
版本说明
使用的Mahout版本为apache-mahout-distribution-0.10.1
使用的Hadoop版本为hadoop-2.3.0-cdh5.0.0
分词
使用爬虫对每个URL的标题、关键词、描述进...
9年前 (2015-08-03) 20503℃
15喜欢
关键字:华为Astro、SparkSQL On HBase、SQL On HBase
华为最近开源的SparkSQL On HBase,又名Astro,
整合了Spark、SparkSQL、HBase,是继Phoenix后,SQL On HBase的又一利器。
至于实际用起来怎么...
9年前 (2015-07-30) 17767℃
18喜欢
关键字:Hive udf、SparkSQL udf、 第三方jar包
当在Hive和SparkSQL中使用的自定义UDF函数需要依赖第三方jar包时,可以将所有jar包通过类似于fatjar等插件打在一起,但显得太麻烦、太累赘了。
其实只需要在运行时候将依赖的第三方jar包和ud...
9年前 (2015-07-23) 20164℃
11喜欢
关键字:用户画像、标签
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖 掘潜在的商业...
9年前 (2015-07-23) 11919℃
15喜欢
关键字:中文分词、IKAnalyzer
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最...
9年前 (2015-07-22) 69132℃
130喜欢
关键字:Hive WEB接口、Hive HWI
Hive提供给用户的交互接口一般有三种:Hive命令行(Hive Command Line)、JDBC/ODBC以及Hive WEB Interface(HWI)。对于开发者来说,最常用的是Hive命令行。如果是将Hive开放给数据...
9年前 (2015-07-20) 23618℃
7喜欢
关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client
Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用。
要把Spark...
10年前 (2015-07-15) 39440℃
18喜欢