免费开源的Flume，是如何有效采集、聚集和移动大量数据的呢？

七零后妈妈日常 08-10 92

前言：

目前同学们对“flume实时采集”大约比较珍视，大家都需要知道一些“flume实时采集”的相关资讯。那么小编同时在网摘上汇集了一些对于“flume实时采集””的相关内容，希望兄弟们能喜欢，大家快快来学习一下吧！

Flume是hadoop的数据收集系统，对不同来源的大量日志数据进行有效采集、聚集和移动，并进行集中式数据存储。

Flume 是免费开源产品，可以对数据进行简单处理，可以根据实际情况进行灵活拓扑组网，既能用于实时转发也能转为离线固化。

Flume 特点：高可用、高可靠、分布式，无法支持实时计算。Flume 如果出现异常，需等待下一次重新处理

Flume架构：Flume由source（数据源）、channel（临时缓存）、sink（写出数据）组成，一个Source可以连接多个Channel，并且，Source必须至少和一个channel关联。

1、Flume Source 类型：Source用于采集数据，将采集的数据流传输到Channel中，Source类型有两种：驱动型 Source 和轮询型 Source。

Flume 本地采集的 Source： Spooling Directory Source。

2、Flume Channel 类型：Channel连接Source和Sink，是位于Source和Sink之间的缓冲区。Channel类型有三种：

1）Memory Channel，是基于内存缓存，不支持持久化；2）File Channel，是Flume的持久化Channel，系统宕机不会丢失数据；3）JDBC Channel，用于支持它本身嵌入的Derby 数据库。

3、Flume Sink类型：Sink使用户能够轻松地将数据导出到各种目的地，用于进一步的处理和分析。常用的Sink类型有：

1）HDFS Sink：将数据写入Hadoop HDFS文件系统。2）Hive Sink：将数据写入Hadoop Hive数据库。3）Kafka Sink：将数据写入Kafka消息队列。4）Logger Sink：将数据写入日志文件，以便进行跟踪和调试。

Flume 高级组件：除了 Source、channel、Sink外，用户可以设置其他组件，用以更灵活地控制数据流。

1）拦截器（interceptor）：过滤和修饰数据；2）通道选择器（channel selector）：可以将数据发到不同channel中以实现路由功能；3）sink 处理器（sink processor）：可以实现负载均衡或故障转移，其中故障转移指的是，如果下一跳的Flume节点故障，可以自动切换到另外一条路上继续传输。

Flume 数据传输基本单元： event，Flume以事件的形式将数据从源头传输到最终的⽬的。如果是文本文件，通常是一行记录，这也是事务的基本单位。

（图片均来源于网络，如有侵权请联系删除）

本文地址：http://www.longkongtuishu.com/cab45BAJsBFYGDFFc.html

标签： #flume实时采集