关键字:spark、资源分配、dynamic resource allocation
Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Yarn模式下,通常使用–num-executors来指定Appl...
9年前 (2015-12-31) 50558℃
31喜欢
关键字:elastichsearch、crate.io、sql
之前介绍过ElasticSearch,它部署简单,搜索聚合功能强大,而且和其他大数据框架整合起来使用,有一点比较不方便,就是查询都需要通过JSON作为请求Body来提交查询,请求响应也是JSON,作为习惯使用SQL的...
9年前 (2015-12-16) 26142℃
13喜欢
关键字:elasticsearch、olap
一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5、6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它。后来发现使用ElasticSe...
9年前 (2015-12-16) 52491℃
34喜欢
关键字:hive、elasticsearch、integration、整合
ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台...
9年前 (2015-12-11) 69268℃
11喜欢
ElasticSearch是一个开源搜索服务框架,它已经成为搜索解决方案领域的重要成员。ElasticSearch还经常被用作文档数据库,这主要得益于它的分布式特性和实时搜索能力,另外,ElasticSearch支持越来越多的聚合功能,而且和Yarn、Hadoop、Hive、Pi...
9年前 (2015-12-11) 18585℃
16喜欢
关键字:海量数据去重、BloomFilter
今天尝试了使用Bloom filter对大量数据的去重计数,记录一下。
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%...
9年前 (2015-12-09) 31205℃
12喜欢
关键字:flume、kafka sink、high CPU
在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent...
9年前 (2015-12-07) 21234℃
8喜欢
关键字:log4j、Kafka、KafkaLog4jAppender
很多应用程序使用Log4j记录日志,如何使用Kafka实时的收集与存储这些Log4j产生的日志呢?一种方案是使用其他组件(比如Flume,或者自己开发程序)实时监控这些日志文件,然后发送至Kafka。而另外一种...
9年前 (2015-11-30) 33369℃
30喜欢
关键字:日志、实时收集、实时计算
作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...
9年前 (2015-11-27) 56574℃
50喜欢
关键字:druid,druid.io,olap,realtime
导读:
简介
架构:整体架构、实时节点、历史节点、协调节点、Broker节点、Indexer节点、ZooKeeper
Druid vs 其他系统:Druid vs Impala/Shark、Druid vs Ela...
9年前 (2015-11-19) 20649℃
16喜欢
关键字:druid.io、druid query
Druid查询是通过HTTP REST方式发送查询请求,查询的描述写在一个JSON文件中,可以处理查询请求的服务包括Broker、Historical和Realtime,这几个服务节点都提供了相同的查询接口,但一般是将查询请求发送...
9年前 (2015-11-19) 23806℃
30喜欢
关键字:druid,HadoopDruidIndexer,Batch Data Ingestion
有两种方式将批量数据加载到Druid集群中,使用Indexing Service或者HadoopDruidIndexer。
本文介绍如何使用HadoopDruidIndexer向D...
9年前 (2015-11-19) 20784℃
11喜欢
关键字:druid、druid.io、实时olap、大数据实时分析
导读:
一、Druid简介
二、Druid架构组成及相关依赖
三、Druid集群配置
四、Druid集群启动
五、Druid查询
六、后记
一、Druid简介
Druid是一个为大型冷数据集上实时探索查询而设计的...
9年前 (2015-11-17) 59859℃
39喜欢
关键字:SparkSQL、Spark Streaming、SQL、实时计算
Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括S...
9年前 (2015-11-11) 47112℃
71喜欢
关键字:Kafka 参数
系统参数
#唯一标识在集群中的ID,要求是正数。
broker.id=0
#服务端口,默认9092
port=9092
#监听地址
host.name=debugo01
# 处理网络请求的最大线程数
num.network.threads=2
# 处理磁...
9年前 (2015-11-04) 21606℃
10喜欢