关键字:flume、interceptor、kafka sink、多分区
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。
前面的文章《...
9年前 (2015-11-02) 25505℃
19喜欢
关键字:flume、拦截器、interceptor
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...
9年前 (2015-11-02) 19475℃
17喜欢
关键字:flume、拦截器、interceptor
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...
9年前 (2015-11-02) 40587℃
37喜欢
关键字:Kafka分区、Partition
Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)和索引文件...
9年前 (2015-10-30) 62681℃
69喜欢
关键字:Hadoop 多用户、资源、fair scheduler
在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等...
9年前 (2015-10-26) 38414℃
31喜欢
关键字:大数据、开源
一、Hadoop相关工具
1. Hadoop
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:Windows、Linux和OS X。
相关链接:http...
9年前 (2015-10-23) 13862℃
8喜欢
关键字:flume、hdfs、sink、配置参数
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。
channel
type
hdfs
path
写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/...
9年前 (2015-10-16) 48562℃
65喜欢
关键字:Flume、TaildirSource、TailFile、Source
在通过Flume收集日志的业务场景中,一般都会遇到下面的情况,在日志收集服务器的某个目录下,会按照一段时间生成一个日志文件,并且日志会不断的追加到这个文件中,比如,每小时一个命名规则为log_2015...
9年前 (2015-10-15) 35039℃
22喜欢
传入一个日期,获取N天前的日期
例如,传入2015-10-10,获取3天前的日期:
[liuxiaowen@getway ~]$ day1=2015-10-10
##先将传入的2015-10-10转换成精确到秒的时间戳
[liuxiaowen@getway ~]$ time1...
9年前 (2015-10-10) 26117℃
9喜欢
关键字:Hive客户端、界面、SQuirrel SQL Client
刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client,试了一下,用起来还行,在这里记录一下安装及使用方法。
SQuirrel SQL Client是一个用Java写的数...
9年前 (2015-09-29) 62356℃
30喜欢
关键字:streamlib、基数估计、实时计算uv、大数据、去重计数
一直在想如何在实时计算中完成对海量数据去重计数的功能,即SELECT COUNT(DISTINCT) 的功能。比如:从每天零点开始,实时计算全站累计用户数(UV),以及某些组合维度上的用户数,这里的用户假设以C...
9年前 (2015-09-25) 27306℃
18喜欢
关键字:Kafka Java API、producer、consumer
前面的文章《Kafka安装配置测试》中安装配置了分布式的Kafka集群,并且使用自带的kafka-console-producer.sh和kafka-console-consumer.sh模拟测试了发送消息...
9年前 (2015-09-24) 26658℃
18喜欢
关键字:Kafka安装、配置、测试
之前转的文章《Kafka架构和原理深度剖析》中介绍了Kafka的原理,本文记录一下其安装配置和测试的过程。
Kafka的整体架构:
本文中的配置:
在两台机器Node1和Node2上,分别部署了两个broker,Zookeeper使用的是单...
9年前 (2015-09-24) 22410℃
29喜欢
关键字:Kafka、Kafka架构、Kafka原理
背景介绍
Kafka简介
Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:
以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能
高吞吐率。即使在非常廉价的...
9年前 (2015-09-24) 40840℃
28喜欢
关键字:Hive存储过程、PL/HQL、HQL/SQL、MySQL
通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中,经常会有需要将Hive和RDBMS中的数据结合分析,比如:
往RDBMS中写入Hive分析的审计信息;
从RDBMS中获取一些维表的数据...
9年前 (2015-09-21) 16137℃
14喜欢