微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 联系作者:lxw1234@qq.com | 赞助作者:赞助作者
Hive

记录一下Hive2.0安装配置遇到的问题

记录一下Hive2.0安装配置遇到的问题
关键字: hive2.0 本文记录在尝试配置部署Hive2.0过程中遇到的一些问题。 Hive2.0的安装配置过程一样非常简单,和之前的版本没什么区别,具体可参考:http://lxw1234.com/archives/2015/06/269.htm 下载并解压apache-hi...

2年前 (2016-03-31) 4983℃ 6喜欢

其他

一个用于将各种输入法细胞分类词库转换成文本的工具

一个用于将各种输入法细胞分类词库转换成文本的工具
关键字:输入法细胞词库、深蓝词库转换、分类词库 在做中文文本处理的相关工作(比如中文分词、中文分类等)过程中,通常需要扩展词库,分类词库尤佳,而各个输入法的细胞词库中,都提供了已经分类的细胞词库,但这些文件格式通常都是专用的非文本文件,之前找到了一个将各种输入法细胞词库文件转换成...

2年前 (2016-03-24) 3103℃ 2喜欢

大数据平台

从数据仓库到大数据,数据平台这25年是怎样进化的?

从数据仓库到大数据,数据平台这25年是怎样进化的?
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...

2年前 (2016-03-23) 5150℃ 6喜欢

编程语言

Linux Shell中使用awk完成两个文件的关联Join

Linux Shell中使用awk完成两个文件的关联Join
关键字:shell、awk、join Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。 先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐...

2年前 (2016-03-11) 5922℃ 12喜欢

Spark

Spark机器学习API之特征处理(二)

Spark机器学习API之特征处理(二)
关键字:spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...

2年前 (2016-03-08) 6770℃ 9喜欢

Spark

Scala基于Akka的Remote Actor实现的简单RPC

Scala基于Akka的Remote Actor实现的简单RPC
关键字:spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。 在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...

2年前 (2016-03-03) 7641℃ 9喜欢

Spark

Spark机器学习API之特征处理(一)

Spark机器学习API之特征处理(一)
关键字:spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...

2年前 (2016-02-26) 7621℃ 5喜欢

大数据平台

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践
关键字:大数据平台、机器学习 贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...

2年前 (2016-02-16) 11068℃ 29喜欢

Spark

Spark MLlib实现的中文文本分类–Naive Bayes

Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。 本文介绍使用Spark MLlib提...

2年前 (2016-01-22) 60136℃ 72喜欢

Spark

Spark的性能调优

Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...

2年前 (2016-01-18) 5948℃ 14喜欢

Hive

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

[一起学Hive]之二十-自定义HiveServer2的用户安全认证
关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候...

2年前 (2016-01-15) 12924℃ 9喜欢

ElasticSearch

SQL for ElasticSearch–Crate.io安装配置和体验

SQL for ElasticSearch–Crate.io安装配置和体验
关键字:elastichsearch、crate.io、sql 之前介绍过ElasticSearch,它部署简单,搜索聚合功能强大,而且和其他大数据框架整合起来使用,有一点比较不方便,就是查询都需要通过JSON作为请求Body来提交查询,请求响应也是JSON,作为习惯使用SQL的...

2年前 (2015-12-16) 11238℃ 12喜欢

ElasticSearch

使用ElasticSearch作为大数据平台的实时OLAP框架

使用ElasticSearch作为大数据平台的实时OLAP框架
关键字:elasticsearch、olap 一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5、6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它。后来发现使用ElasticSe...

2年前 (2015-12-16) 18340℃ 18喜欢