lxw的大数据田地Hadoop/Hive/HBase/Spark/Java-Page 8

利用Flume拦截器（interceptors）实现Kafka Sink的自定义规则多分区写入

关键字：flume、interceptor、kafka sink、多分区我们目前的业务场景如下：前端的5台日志收集服务器产生网站日志，使用Flume实时收集日志，并将日志发送至Kafka，然后Kafka中的日志一方面可以导入到HDFS，另一方面供实时计算模块使用。前面的文章《...

9年前 (2015-11-02) 25505℃ 19喜欢

Flume

Flume中的拦截器（Interceptor）介绍与使用（二）

关键字：flume、拦截器、interceptor Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常...

9年前 (2015-11-02) 19475℃ 17喜欢

Flume

Flume中的拦截器（Interceptor）介绍与使用（一）

9年前 (2015-11-02) 40587℃ 37喜欢

Kafka

Kafka分区机制介绍与示例

关键字：Kafka分区、Partition Kafka中可以将Topic从物理上划分成一个或多个分区（Partition），每个分区在物理上对应一个文件夹，以”topicName_partitionIndex”的命名方式命名，该文件夹下存储这个分区的所有消息(.log)和索引文件...

9年前 (2015-10-30) 62681℃ 69喜欢

Hadoop

Hadoop多用户资源管理–Fair Scheduler介绍与配置

关键字：Hadoop 多用户、资源、fair scheduler 在一个公司内部的Hadoop Yarn集群，肯定会被多个业务、多个用户同时使用，共享Yarn的资源，如果不做资源的管理与规划，那么整个Yarn的资源很容易被某一个用户提交的Application占满，其它任务只能等...

9年前 (2015-10-26) 38414℃ 31喜欢

大数据平台

60款顶级大数据开源工具

关键字：大数据、开源一、Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。支持的操作系统：Windows、Linux和OS X。相关链接：http...

9年前 (2015-10-23) 13862℃ 8喜欢

Flume

Flume中的HDFS Sink配置参数说明

关键字：flume、hdfs、sink、配置参数 Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。 channel type hdfs path 写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/...

9年前 (2015-10-16) 48562℃ 65喜欢

Flume

Flume中的TaildirSource

关键字：Flume、TaildirSource、TailFile、Source 在通过Flume收集日志的业务场景中，一般都会遇到下面的情况，在日志收集服务器的某个目录下，会按照一段时间生成一个日志文件，并且日志会不断的追加到这个文件中，比如，每小时一个命名规则为log_2015...

9年前 (2015-10-15) 35039℃ 22喜欢

编程语言

Linux shell中对日期时间的处理、日期时间加减

传入一个日期，获取N天前的日期例如，传入2015-10-10，获取3天前的日期： [liuxiaowen@getway ~]$ day1=2015-10-10 ##先将传入的2015-10-10转换成精确到秒的时间戳 [liuxiaowen@getway ~]$ time1...

9年前 (2015-10-10) 26117℃ 9喜欢

Hive

连接Hive的客户端界面工具–SQuirrel SQL Client

关键字：Hive客户端、界面、SQuirrel SQL Client 刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client，试了一下，用起来还行，在这里记录一下安装及使用方法。 SQuirrel SQL Client是一个用Java写的数...

9年前 (2015-09-29) 62356℃ 30喜欢

编程语言

Java使用极小的内存完成对超大数据的去重计数，用于实时计算中统计UV

关键字：streamlib、基数估计、实时计算uv、大数据、去重计数一直在想如何在实时计算中完成对海量数据去重计数的功能，即SELECT COUNT(DISTINCT) 的功能。比如：从每天零点开始，实时计算全站累计用户数（UV），以及某些组合维度上的用户数，这里的用户假设以C...

9年前 (2015-09-25) 27306℃ 18喜欢

Kafka

Kafka Java API实现的简单Producer和Consumer

关键字：Kafka Java API、producer、consumer 前面的文章《Kafka安装配置测试》中安装配置了分布式的Kafka集群，并且使用自带的kafka-console-producer.sh和kafka-console-consumer.sh模拟测试了发送消息...

9年前 (2015-09-24) 26658℃ 18喜欢

Kafka

Kafka安装配置测试

关键字：Kafka安装、配置、测试之前转的文章《Kafka架构和原理深度剖析》中介绍了Kafka的原理，本文记录一下其安装配置和测试的过程。 Kafka的整体架构：本文中的配置：在两台机器Node1和Node2上，分别部署了两个broker，Zookeeper使用的是单...

9年前 (2015-09-24) 22410℃ 29喜欢

Kafka

Kafka架构和原理深度剖析

关键字：Kafka、Kafka架构、Kafka原理背景介绍 Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的...

9年前 (2015-09-24) 40840℃ 28喜欢

Hive

Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表

关键字：Hive存储过程、PL/HQL、HQL/SQL、MySQL 通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中，经常会有需要将Hive和RDBMS中的数据结合分析，比如：往RDBMS中写入Hive分析的审计信息；从RDBMS中获取一些维表的数据...

9年前 (2015-09-21) 16137℃ 14喜欢

上一页
1
···
4
5
6
7
8
9
10
11
12
...
下一页

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

热门排行

利用Flume拦截器（interceptors）实现Kafka Sink的自定义规则多分区写入

Flume中的拦截器（Interceptor）介绍与使用（二）

Flume中的拦截器（Interceptor）介绍与使用（一）

Kafka分区机制介绍与示例

Hadoop多用户资源管理–Fair Scheduler介绍与配置

60款顶级大数据开源工具

Flume中的HDFS Sink配置参数说明

Flume中的TaildirSource

Linux shell中对日期时间的处理、日期时间加减

连接Hive的客户端界面工具–SQuirrel SQL Client

Java使用极小的内存完成对超大数据的去重计数，用于实时计算中统计UV

Kafka Java API实现的简单Producer和Consumer

Kafka安装配置测试

Kafka架构和原理深度剖析

Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表