lxw1234@qq.com的文章

Spark动态资源分配-Dynamic Resource Allocation

关键字：spark、资源分配、dynamic resource allocation Spark中，所谓资源单位一般指的是executors，和Yarn中的Containers一样，在Spark On Yarn模式下，通常使用–num-executors来指定Appl...

8年前 (2015-12-31) 49307℃ 31喜欢

ElasticSearch

SQL for ElasticSearch–Crate.io安装配置和体验

关键字：elastichsearch、crate.io、sql 之前介绍过ElasticSearch，它部署简单，搜索聚合功能强大，而且和其他大数据框架整合起来使用，有一点比较不方便，就是查询都需要通过JSON作为请求Body来提交查询，请求响应也是JSON，作为习惯使用SQL的...

8年前 (2015-12-16) 25626℃ 13喜欢

ElasticSearch

使用ElasticSearch作为大数据平台的实时OLAP框架

关键字：elasticsearch、olap 一直想找一个用于大数据平台实时OLAP（甚至是实时计算）的框架，之前调研的Druid（druid.io）太过复杂，整个Druid由5、6个服务组成，而且加载数据也不太方便，性能一般，亦或是我还不太会用它。后来发现使用ElasticSe...

8年前 (2015-12-16) 51601℃ 34喜欢

ElasticSearch

使用Hive读写ElasticSearch中的数据

关键字：hive、elasticsearch、integration、整合 ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用，尤其是在添加数据的时候，可以使用分布式任务来添加索引数据，尤其是在数据平台...

8年前 (2015-12-11) 68113℃ 11喜欢

ElasticSearch

ElasticSearch集群安装配置

ElasticSearch是一个开源搜索服务框架，它已经成为搜索解决方案领域的重要成员。ElasticSearch还经常被用作文档数据库，这主要得益于它的分布式特性和实时搜索能力，另外，ElasticSearch支持越来越多的聚合功能，而且和Yarn、Hadoop、Hive、Pi...

8年前 (2015-12-11) 18325℃ 16喜欢

编程语言

大数据去重统计之BloomFilter

关键字：海量数据去重、BloomFilter 今天尝试了使用Bloom filter对大量数据的去重计数，记录一下。 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%...

8年前 (2015-12-09) 30347℃ 12喜欢

Flume

Flume使用Kafka Sink导致CPU过高的问题

关键字：flume、kafka sink、high CPU 在日志收集服务器上使用Flume（1.6）的Kafka Sink将日志数据发送至Kafka，在Flume Agent启动之后，发现每个Agent的CPU使用率都非常高，而我们需要在每台机器上启动多个Flume Agent...

8年前 (2015-12-07) 20503℃ 8喜欢

Kafka

使用Log4j将程序日志实时写入Kafka

关键字：log4j、Kafka、KafkaLog4jAppender 很多应用程序使用Log4j记录日志，如何使用Kafka实时的收集与存储这些Log4j产生的日志呢？一种方案是使用其他组件（比如Flume，或者自己开发程序）实时监控这些日志文件，然后发送至Kafka。而另外一种...

9年前 (2015-11-30) 32663℃ 30喜欢

大数据平台

记录一下互联网日志实时收集和实时计算的简单方案

关键字：日志、实时收集、实时计算作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以上），因此，我们使用Flume将数据收集到H...

9年前 (2015-11-27) 55320℃ 49喜欢

Druid

Druid.io实时OLAP数据分析存储系统介绍

关键字：druid,druid.io,olap,realtime 导读：简介架构：整体架构、实时节点、历史节点、协调节点、Broker节点、Indexer节点、ZooKeeper Druid vs 其他系统：Druid vs Impala/Shark、Druid vs Ela...

9年前 (2015-11-19) 20346℃ 16喜欢

Druid

查询Druid中的数据

关键字：druid.io、druid query Druid查询是通过HTTP REST方式发送查询请求，查询的描述写在一个JSON文件中，可以处理查询请求的服务包括Broker、Historical和Realtime，这几个服务节点都提供了相同的查询接口，但一般是将查询请求发送...

9年前 (2015-11-19) 23440℃ 30喜欢

Druid

使用HadoopDruidIndexer向Druid集群中加载批量数据-Batch Data Ingestion

关键字：druid,HadoopDruidIndexer,Batch Data Ingestion 有两种方式将批量数据加载到Druid集群中，使用Indexing Service或者HadoopDruidIndexer。本文介绍如何使用HadoopDruidIndexer向D...

9年前 (2015-11-19) 20418℃ 11喜欢

Druid

海量数据实时OLAP分析系统-Druid.io安装配置和体验

关键字：druid、druid.io、实时olap、大数据实时分析导读：一、Druid简介二、Druid架构组成及相关依赖三、Druid集群配置四、Druid集群启动五、Druid查询六、后记一、Druid简介 Druid是一个为大型冷数据集上实时探索查询而设计的...

9年前 (2015-11-17) 59165℃ 39喜欢

Spark

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计

关键字：SparkSQL、Spark Streaming、SQL、实时计算 Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括S...

9年前 (2015-11-11) 46355℃ 70喜欢

Kafka

Kafka主要参数详解

关键字：Kafka 参数系统参数 #唯一标识在集群中的ID，要求是正数。 broker.id=0 #服务端口，默认9092 port=9092 #监听地址 host.name=debugo01 # 处理网络请求的最大线程数 num.network.threads=2 # 处理磁...

9年前 (2015-11-04) 21277℃ 10喜欢

上一页
1
···
3
4
5
6
7
8
9
10
11
...
下一页