龙空技术网

快速认识Kafka Connect(连接器)

软件架构 599

前言:

眼前姐妹们对“连接器dbg logs passthru”大约比较注意,大家都想要知道一些“连接器dbg logs passthru”的相关文章。那么小编同时在网上搜集了一些关于“连接器dbg logs passthru””的相关内容,希望我们能喜欢,朋友们快快来学习一下吧!

Kafka Connect作为Kafka的一部分,是随着Kafka系统一起发布的,无须独立安装。


一、认识Kafka Connect(连接器)

Kafka Connect有两个核心概念:Source和Sink。

Source Connector负责导入数据到Kafka;Sink Connector负责从Kafka导出数据,推送到外部系统,它们都被称为Connector。

每一个Connector都是单向的,数据不能反向流动。

下图简单展示了Kafka Connect架构,其中包括Source Connector(绿色)和Sink Connector(蓝色)数据流。



二、Kafka Connect的使用场景

Kafka Connect 通常用来构建数据管道,一般有2种使用场景。


1. 将Kafka系统作为数据管道的开始和结束的端点

例如,将Kafka topic中数据迁移到HBase 数据仓库,或者把MySQL 数据库中的数据转入到Kafka 系统中。


2. 将Kafka系统作为一个中间传输介质

例如,为了把海量数据存储到Elasticsearch中,可以先把数据传输到Kafka 系统,然后再从Kafka系统中将这些数据移出到Elasticsearch中进行存储。

Kafka Connect作为数据管道中的缓冲区,将consumer和producer应用有效地进行了解耦。



三、配置Connector连接器

Connector的配置是简单的key-value映射。对于独立模式,这些都是在属性文件中定义,并通过在命令行上的Connect处理。在分布式模式,JSON负责connector的创建(或修改)请求。大多数配置都是依赖的connector属性,有几个常见的选项:

name - 连接器唯一的名称,不能重复。connector.class - 连接器的Java类。tasks.max - 连接器创建任务的最大数。connector.class配置支持多种格式:全名或连接器类的别名。比如连接器是org.apache.kafka.connect.file.FileStreamSinkConnector,你可以指定全名,也可以使用FileStreamSink或FileStreamSinkConnector。topics - 作为连接器的输入的topic列表。


在Kafka系统中,连机器最终是以一个常驻进程的形式运行在后台服务中,提供了一个用来管理连机器实例的REST API。默认情况下,服务端口地址是8083。



四、Kafka Connect的优点

1.对开发者提供了统一的实现接口。

2.开发,部署和管理都非常方便,统一。

3.使用分布式模式进行水平扩展,毫无压力。

4.在分布式模式下可以通过Rest Api提交和管理Connectors。

5.对offset自动管理,只需要很简单的配置,而不像Consumer中需要开发者处理。

6.流式/批式处理的支持。


标签: #连接器dbg logs passthru