将kafka集群端口映射到公网访问

场景假设

比如你有一个kafka集群,在同一个vpc私有网络)里面也即是在一个内网环境里,该kafka集群有3个broker,broker1、broker2和broker3。

kafka集群信息如下:

  • broker1 IP: 192.168.xxx.1
  • broker2 IP: 192.168.xxx.2
  • broker3 IP: 192.168.xxx.3

kafka集群各个节点 server.properties配置

config/server-1.properties:
broker.id=1
listeners=PLAINTEXT://192.168.xxx.1:19092
config/server-2.properties:
broker.id=2
listeners=PLAINTEXT://192.168.xxx.2:19092
config/server-3.properties:
broker.id=3
listeners=PLAINTEXT://192.168.xxx.3:19092

  • 现在希望通过配置vpc公网ip做端口转发(也可以通过nginx做端口转发),就可以通过外网访问了(但是实际用kafka客户端连接会报超时)

想通过vpc外的机器来访问kafka集群,也就想访问192.168.xxx.1:19092,192.168.xxx.2:19092,192.168.xxx.3:19092

在vpc上做端口转发,vpc公网ip为192.168.xxx.xx,并在相应防火墙打开对应端口19092、19093、19093),比如:

192.168.xxx.xx:19092 -> 192.168.xxx.1:19092
192.168.xxx.xx:19093 -> 192.168.xxx.2:19092
192.168.xxx.xx:19094 -> 192.168.xxx.2:19092

测试

这时,如果你通过vpc的公网ip和对应端口连接私有网络(内网)内的kafka集群,192.168.xxx.xx:19092、192.168.xxx.xx:19093、192.168.xxx.xx:19094端口都是通的,但是访问kafka发送或消费消息时,会报网络超时,这是为什么呢?

kafka producer端(客户端)和server之间有个类似协商的阶段, server会把lkafka配置文件里listeners这里的地址直接返给producer,producer再发数据给这个listeners地址。

因为kafka客户端是主动发现集群地址的,当你通过192.168.xxx.xx:19092、192.168.xxx.xx:19093、192.168.xxx.xx:19094确实是连接到kafka集群了,kafka集群返回给你的ip列表是你listeners配置的,也就是

192.168.xxx.1:19092
192.168.xxx.2:19092
192.168.xxx.3:19092

客户端producer 在vpc这个私有网络以外,producer 端通过ip转发和端口都没有用,producer 和vpc对应的公网ip是通的,但是与vpc内私有网络不通,这就是访问kafka发送或消费消息时会报网络超时等等的本质原因。

解决

一种解决方式是客户端通过域名映射的方式。

1.kafka配置:

修改kafka集群服务端各个节点的server.properties配置,注意listeners之后的ip和端口配置

config/server-1.properties:
broker.id=1
listeners=PLAINTEXT://kafka-1:19092
config/server-2.properties:
broker.id=2
listeners=PLAINTEXT://kafka-2:19093
config/server-3.properties:
broker.id=3
listeners=PLAINTEXT://kafka-3:19094

kafka集群的各个节点在服务端配置hosts

cat /etc/hosts

192.168.xxx.1 kafka-1
192.168.xxx.2 kafka-2
192.168.xxx.3 kafka-3

2.vpc做端口映射

kafka-1 映射至 192.168.xxx.1:19092
kafka-2 映射至 192.168.xxx.2:19093
kafka-3 映射至 192.168.xxx.3:19094

3.客户端配置:

客户端在host文件中把kafka01、kafka02、kafka03都映射到公网地址。这个很关键,上面提到过客户端会获取到kafka配置的元数据 ,客户端会获取到 kafka-1、kafka-2、kafka-3 这3个hostname,之后生产或消费数据会直接通过这个地址访问。如果不把这三个hostname重新映射到公网IP,就不能成功生产或者消费数据。

#/etc/hosts
192.168.xxx.xx kafka01 kafka02 kafka03

客户端访问kafka集群时,获取的是kafka-1:19092,kafka-2:19093,kafka-3:19094,通过客户端配置的hosts映射,都转成了对应的外网的ip,因此就可以访问了。

注意:端口要一致,hosts映射只转ip。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注