lxw1234@qq.com的文章

数据分析及制作工具

微信大数据分析工具新媒体指数：http://www.gsdata.cn 数据可视化工具百度ECharts：http://echarts.baidu.com/ Cytoscape：http://www.cytoscape.org/ 图表秀：http://www.tubiaox...

9年前 (2016-04-22) 9033℃ 0喜欢

Hive

Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index

关键字: orc、index、row group index、bloom filter index 之前的文章《更高的压缩比，更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式，它不但有着很高的压缩比，节省存储和计算资源之外，还通过一个内置的轻量级索引，...

9年前 (2016-04-08) 40075℃ 62喜欢

Hive

更高的压缩比，更好的性能–使用ORC文件格式优化Hive

关键字：orc、index、hive Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的...

9年前 (2016-04-05) 53027℃ 56喜欢

Hive

记录一下Hive2.0安装配置遇到的问题

关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单，和之前的版本没什么区别，具体可参考：http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

9年前 (2016-03-31) 12640℃ 8喜欢

其他

一个用于将各种输入法细胞分类词库转换成文本的工具

关键字：输入法细胞词库、深蓝词库转换、分类词库在做中文文本处理的相关工作（比如中文分词、中文分类等）过程中，通常需要扩展词库，分类词库尤佳，而各个输入法的细胞词库中，都提供了已经分类的细胞词库，但这些文件格式通常都是专用的非文本文件，之前找到了一个将各种输入法细胞词库文件转换成...

9年前 (2016-03-24) 10150℃ 5喜欢

大数据平台

从数据仓库到大数据，数据平台这25年是怎样进化的？

从「数据仓库」一词到现在的「大数据」，中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的？让InfoQ特约老司机为你讲解。我是从2000年开始接触数据仓库，大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉：非互联网企业、互联...

9年前 (2016-03-23) 15941℃ 10喜欢

编程语言

Linux Shell中使用awk完成两个文件的关联Join

关键字：shell、awk、join Shell中的awk命令是非常强大的，有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点，使用awk命令完成两个文件的关联join。先看看awk中的两个自身变量，NR和FNR。 awk可以指定同时读取多个文件，按照指定的先后顺序，逐...

9年前 (2016-03-11) 27226℃ 28喜欢

Spark

Spark机器学习API之特征处理（二）

关键字：spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml...

9年前 (2016-03-08) 16038℃ 11喜欢

Spark

Scala基于Akka的Remote Actor实现的简单RPC

关键字：spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的，Akka的设计目标就是为分布式，Actor之间的交互都是通过消息，并且所有动作都是异步的。在Spark应用程序中会有需要实现RPC的功能，比如：从一个一直运行的...

9年前 (2016-03-03) 19340℃ 10喜欢

Spark

Spark机器学习API之特征处理（一）

关键字：spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比...

9年前 (2016-02-26) 16938℃ 5喜欢

大数据平台

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

关键字：大数据平台、机器学习贝贝网的主要产品是垂直的母婴类，母婴相对一般的电子商务网站有一些特点：第一个特点是商品周期短，在母婴网站上的商品，在线的时间不会超过5-7天，第二个是用户需求的变化快，在母婴行业，可能是用户的需求变化最快的领域，比如是用户处在怀孕当中，关心的是孕妈的...

9年前 (2016-02-16) 27153℃ 33喜欢

Spark

Spark MLlib实现的中文文本分类–Naive Bayes

关键字：spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类，在数据平台的一个典型的应用场景是，通过爬取用户浏览过的页面内容，识别出用户的浏览偏好，从而丰富该用户的画像。本文介绍使用Spark MLlib提...

9年前 (2016-01-22) 143113℃ 138喜欢

Spark

Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个ex...

9年前 (2016-01-18) 14531℃ 19喜欢

Hive

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

关键字：hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能，非常实用，但如果在使用HiveServer2时候，不注意安全控制，将非常危险，因为任何人都可以作为超级用户来操作Hive及HDFS数据。比如：在配置HiveServer2的时候...

9年前 (2016-01-15) 33035℃ 19喜欢

Spark

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

关键字：spark、mllib、Gradient-Boosted Trees、广告点击预测本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据，下...

9年前 (2016-01-15) 42147℃ 41喜欢