微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
大数据平台

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践

一个母婴电子商务网站贝贝网的大数据平台及机器学习实践
关键字:大数据平台、机器学习 贝贝网的主要产品是垂直的母婴类,母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的...

1年前 (2016-02-16) 6149℃ 24喜欢

Spark

Spark MLlib实现的中文文本分类–Naive Bayes

Spark MLlib实现的中文文本分类–Naive Bayes
关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes 文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。 本文介绍使用Spark MLlib提...

1年前 (2016-01-22) 16672℃ 28喜欢

Spark

Spark的性能调优

Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex...

1年前 (2016-01-18) 3498℃ 9喜欢

Hive

[一起学Hive]之二十-自定义HiveServer2的用户安全认证

[一起学Hive]之二十-自定义HiveServer2的用户安全认证
关键字:hiveserver2、用户安全 HiveServer2提供了JDBC链接操作Hive的功能,非常实用,但如果在使用HiveServer2时候,不注意安全控制,将非常危险,因为任何人都可以作为超级用户来操作Hive及HDFS数据。 比如:在配置HiveServer2的时候...

1年前 (2016-01-15) 5285℃ 6喜欢

ElasticSearch

SQL for ElasticSearch–Crate.io安装配置和体验

SQL for ElasticSearch–Crate.io安装配置和体验
关键字:elastichsearch、crate.io、sql 之前介绍过ElasticSearch,它部署简单,搜索聚合功能强大,而且和其他大数据框架整合起来使用,有一点比较不方便,就是查询都需要通过JSON作为请求Body来提交查询,请求响应也是JSON,作为习惯使用SQL的...

1年前 (2015-12-16) 5224℃ 7喜欢

ElasticSearch

使用ElasticSearch作为大数据平台的实时OLAP框架

使用ElasticSearch作为大数据平台的实时OLAP框架
关键字:elasticsearch、olap 一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5、6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它。后来发现使用ElasticSe...

1年前 (2015-12-16) 8971℃ 10喜欢

ElasticSearch

使用Hive读写ElasticSearch中的数据

使用Hive读写ElasticSearch中的数据
关键字:hive、elasticsearch、integration、整合 ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台...

1年前 (2015-12-11) 7859℃ 1喜欢

ElasticSearch

ElasticSearch集群安装配置

ElasticSearch集群安装配置
ElasticSearch是一个开源搜索服务框架,它已经成为搜索解决方案领域的重要成员。ElasticSearch还经常被用作文档数据库,这主要得益于它的分布式特性和实时搜索能力,另外,ElasticSearch支持越来越多的聚合功能,而且和Yarn、Hadoop、Hive、Pi...

1年前 (2015-12-11) 5118℃ 6喜欢

编程语言

大数据去重统计之BloomFilter

大数据去重统计之BloomFilter
关键字:海量数据去重、BloomFilter 今天尝试了使用Bloom filter对大量数据的去重计数,记录一下。 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%...

1年前 (2015-12-09) 4506℃ 3喜欢

Flume

Flume使用Kafka Sink导致CPU过高的问题

Flume使用Kafka Sink导致CPU过高的问题
关键字:flume、kafka sink、high CPU 在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent...

1年前 (2015-12-07) 4049℃ 4喜欢

Kafka

使用Log4j将程序日志实时写入Kafka

使用Log4j将程序日志实时写入Kafka
关键字:log4j、Kafka、KafkaLog4jAppender 很多应用程序使用Log4j记录日志,如何使用Kafka实时的收集与存储这些Log4j产生的日志呢?一种方案是使用其他组件(比如Flume,或者自己开发程序)实时监控这些日志文件,然后发送至Kafka。而另外一种...

1年前 (2015-11-30) 6482℃ 6喜欢

大数据平台

记录一下互联网日志实时收集和实时计算的简单方案

记录一下互联网日志实时收集和实时计算的简单方案
关键字:日志、实时收集、实时计算 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...

1年前 (2015-11-27) 14117℃ 17喜欢

Druid

Druid.io实时OLAP数据分析存储系统介绍

Druid.io实时OLAP数据分析存储系统介绍
关键字:druid,druid.io,olap,realtime 导读: 简介 架构:整体架构、实时节点、历史节点、协调节点、Broker节点、Indexer节点、ZooKeeper Druid vs 其他系统:Druid vs Impala/Shark、Druid vs Ela...

1年前 (2015-11-19) 4287℃ 5喜欢