前言:
眼前姐妹们对“连接器dbg logs passthru”大约比较注意,大家都想要知道一些“连接器dbg logs passthru”的相关文章。那么小编同时在网上搜集了一些关于“连接器dbg logs passthru””的相关内容,希望我们能喜欢,朋友们快快来学习一下吧!Kafka Connect作为Kafka的一部分,是随着Kafka系统一起发布的,无须独立安装。
一、认识Kafka Connect(连接器)
Kafka Connect有两个核心概念:Source和Sink。
Source Connector负责导入数据到Kafka;Sink Connector负责从Kafka导出数据,推送到外部系统,它们都被称为Connector。
每一个Connector都是单向的,数据不能反向流动。
下图简单展示了Kafka Connect架构,其中包括Source Connector(绿色)和Sink Connector(蓝色)数据流。
二、Kafka Connect的使用场景
Kafka Connect 通常用来构建数据管道,一般有2种使用场景。
1. 将Kafka系统作为数据管道的开始和结束的端点
例如,将Kafka topic中数据迁移到HBase 数据仓库,或者把MySQL 数据库中的数据转入到Kafka 系统中。
2. 将Kafka系统作为一个中间传输介质
例如,为了把海量数据存储到Elasticsearch中,可以先把数据传输到Kafka 系统,然后再从Kafka系统中将这些数据移出到Elasticsearch中进行存储。
Kafka Connect作为数据管道中的缓冲区,将consumer和producer应用有效地进行了解耦。
三、配置Connector连接器
Connector的配置是简单的key-value映射。对于独立模式,这些都是在属性文件中定义,并通过在命令行上的Connect处理。在分布式模式,JSON负责connector的创建(或修改)请求。大多数配置都是依赖的connector属性,有几个常见的选项:
name - 连接器唯一的名称,不能重复。connector.class - 连接器的Java类。tasks.max - 连接器创建任务的最大数。connector.class配置支持多种格式:全名或连接器类的别名。比如连接器是org.apache.kafka.connect.file.FileStreamSinkConnector,你可以指定全名,也可以使用FileStreamSink或FileStreamSinkConnector。topics - 作为连接器的输入的topic列表。
在Kafka系统中,连机器最终是以一个常驻进程的形式运行在后台服务中,提供了一个用来管理连机器实例的REST API。默认情况下,服务端口地址是8083。
四、Kafka Connect的优点
1.对开发者提供了统一的实现接口。
2.开发,部署和管理都非常方便,统一。
3.使用分布式模式进行水平扩展,毫无压力。
4.在分布式模式下可以通过Rest Api提交和管理Connectors。
5.对offset自动管理,只需要很简单的配置,而不像Consumer中需要开发者处理。
6.流式/批式处理的支持。
标签: #连接器dbg logs passthru