微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
大数据平台

从数据仓库到大数据,数据平台这25年是怎样进化的?

从数据仓库到大数据,数据平台这25年是怎样进化的?
从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识、架构模式的演进与变革。数据平台这25年究竟是怎样进化的?让InfoQ特约老司机为你讲解。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联...

1年前 (2016-03-23) 2837℃ 4喜欢

编程语言

Linux Shell中使用awk完成两个文件的关联Join

Linux Shell中使用awk完成两个文件的关联Join
关键字:shell、awk、join Shell中的awk命令是非常强大的,有很多书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。 先看看awk中的两个自身变量,NR和FNR。 awk可以指定同时读取多个文件,按照指定的先后顺序,逐...

1年前 (2016-03-11) 2700℃ 8喜欢

Spark

Spark机器学习API之特征处理(二)

Spark机器学习API之特征处理(二)
关键字:spark、机器学习、特征处理、特征选择 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml...

1年前 (2016-03-08) 3851℃ 8喜欢

Spark

Scala基于Akka的Remote Actor实现的简单RPC

Scala基于Akka的Remote Actor实现的简单RPC
关键字:spark、scala、rpc、akka、remote actor Spark中的RPC是使用Akka实现的,Akka的设计目标就是为分布式,Actor之间的交互都是通过消息,并且所有动作都是异步的。 在Spark应用程序中会有需要实现RPC的功能,比如:从一个一直运行的...

1年前 (2016-03-03) 4516℃ 5喜欢

Spark

Spark机器学习API之特征处理(一)

Spark机器学习API之特征处理(一)
关键字:spark、机器学习、特征处理 Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比...

1年前 (2016-02-26) 4925℃ 3喜欢

大数据平台

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践
关键字:大数据平台、机器学习 贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...

1年前 (2016-02-16) 6852℃ 26喜欢

Spark

Spark MLlib实现的中文文本分类–Naive Bayes

Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。 本文介绍使用Spark MLlib提...

1年前 (2016-01-22) 20494℃ 37喜欢

Spark

Spark的性能调优

Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...

1年前 (2016-01-18) 3947℃ 11喜欢

Hive

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

[一起学Hive]之二十-自定义HiveServer2的用户安全认证
关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候...

1年前 (2016-01-15) 6468℃ 6喜欢

ElasticSearch

SQL for ElasticSearch–Crate.io安装配置和体验

SQL for ElasticSearch–Crate.io安装配置和体验
关键字:elastichsearch、crate.io、sql 之前介绍过ElasticSearch,它部署简单,搜索聚合功能强大,而且和其他大数据框架整合起来使用,有一点比较不方便,就是查询都需要通过JSON作为请求Body来提交查询,请求响应也是JSON,作为习惯使用SQL的...

1年前 (2015-12-16) 6067℃ 7喜欢

ElasticSearch

使用ElasticSearch作为大数据平台的实时OLAP框架

使用ElasticSearch作为大数据平台的实时OLAP框架
关键字:elasticsearch、olap 一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5、6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它。后来发现使用ElasticSe...

1年前 (2015-12-16) 10185℃ 11喜欢

ElasticSearch

使用Hive读写ElasticSearch中的数据

使用Hive读写ElasticSearch中的数据
关键字:hive、elasticsearch、integration、整合 ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台...

1年前 (2015-12-11) 9604℃ 1喜欢

ElasticSearch

ElasticSearch集群安装配置

ElasticSearch集群安装配置
ElasticSearch是一个开源搜索服务框架,它已经成为搜索解决方案领域的重要成员。ElasticSearch还经常被用作文档数据库,这主要得益于它的分布式特性和实时搜索能力,另外,ElasticSearch支持越来越多的聚合功能,而且和Yarn、Hadoop、Hive、Pi...

1年前 (2015-12-11) 5835℃ 6喜欢