龙空技术网

Apache Flume入门介绍和原理

架构笔记 97

前言:

今天兄弟们对“apacheflume180”大约比较重视,兄弟们都需要了解一些“apacheflume180”的相关知识。那么小编也在网上网罗了一些对于“apacheflume180””的相关内容,希望朋友们能喜欢,你们一起来学习一下吧!

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 支持定制各类数据发送方,用于收集各类型数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。一般的采集需求,通过对 flume 的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此,flume 可以适用于大部分的日常数据采集场景。

当前Flume有两个版本。Flume 0.9X版本的统称Flume OG(original generation),Flume1.X版本的统称Flume NG(next generation)。

由于Flume NG经过核心组件、核心配置以及代码架构重构,与Flume OG有很大不同,使用时请注意区分。

改动的另一原因是将Flume纳入 Apache 旗下,Cloudera Flume 改名为 Apache Flume。

Flume 分布式系统中核心的角色是 agent,agent 本身是一个 Java 进程,一般运行在日志收集节点。flume 采集系统就是由一个个 agent 所连接起来形成。每一个 agent 相当于一个数据传递员,内部有三个组件:

Source:采集源,用于跟数据源对接,以获取数据;Sink:下沉地,采集数据的传送目的,用于往下一级 agent 传递数据或者往最终存储系统传递数据;Channel:agent 内部的数据传输通道,用于从 source 将数据传递到 sink;

在整个数据的传输的过程中,流动的是 event,它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。如果是文本文件,通常是一行记录,event 也是事务的基本单位。event 从 source,流向 channel,再到 sink,本身为一个字节数组,并可携带 headers(头信息)信息。event 代表着一个数据的最小完整单元,从外部数据源来,向外部的目的地去。一个完整的 event 包括:event headers、event body、event 信息,其中event 信息就是 flume 收集到的日记记录。

标签: #apacheflume180