微信大数据分析工具
新媒体指数:http://www.gsdata.cn
数据可视化工具
百度ECharts:http://echarts.baidu.com/
Cytoscape:http://www.cytoscape.org/
图表秀:http://www.tubiaox...
9年前 (2016-04-22) 9090℃
0喜欢
关键字: orc、index、row group index、bloom filter index
之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,...
9年前 (2016-04-08) 40288℃
62喜欢
关键字:orc、index、hive
Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的...
9年前 (2016-04-05) 53181℃
56喜欢
关键字: hive2.0
本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。
Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm
下载并解压apache-hi...
9年前 (2016-03-31) 12714℃
8喜欢
关键字:输入法细胞词库、深蓝词库转换、分类词库
在做中文文本处理的相关工作(比如中文分词、中文分类等)过程中,通常需要扩展词库,分类词库尤佳,而各个输入法的细胞词库中,都提供了已经分类的细胞词库,但这些文件格式通常都是专用的非文本文件,之前找到了一个将各种输入法细胞词库文件转换成...
9年前 (2016-03-24) 10249℃
5喜欢
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...
9年前 (2016-03-23) 16047℃
10喜欢
关键字:shell、awk、join
Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。
先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐...
9年前 (2016-03-11) 27343℃
28喜欢
关键字:spark、机器学习、特征处理、特征选择
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...
9年前 (2016-03-08) 16113℃
11喜欢
关键字:spark、scala、rpc、akka、remote actor
Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。
在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...
9年前 (2016-03-03) 19416℃
10喜欢
关键字:spark、机器学习、特征处理
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...
9年前 (2016-02-26) 17032℃
5喜欢
关键字:大数据平台、机器学习
贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...
9年前 (2016-02-16) 27258℃
33喜欢
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。
本文介绍使用Spark MLlib提...
9年前 (2016-01-22) 143897℃
138喜欢
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。
基本概念和原则
首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:
每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...
9年前 (2016-01-18) 14596℃
19喜欢
关键字:hiveserver2、用户安全
HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。
比如:在配置HiveServer2的时候...
9年前 (2016-01-15) 33169℃
19喜欢
关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测
本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下...
9年前 (2016-01-15) 42307℃
41喜欢