kafka 不支持读写分离的原因

Posted on 2023年5月6日 by hackdl

前段时间在看 kafka 相关内容，发现 kafka “所有的”读写流量都在主 partition 上，从 partition 只负责备份数据。

那么为什么 kafka 从 partition 不跟其他中间件一样承接读流量？

读写分离的初衷

读写分离的初衷我觉得是利用读流量 & 写流量不同的特性做针对性的优化，而这两种流量我觉得区别如下

	读流量	写流量
业务特性	展示类的业务	操作类业务
流量占比	高	低
可接受数据延迟	较大	非常小
增长的可预见性	高峰/安全攻击可能会突发增长	总体平稳

使用 kafka 的业务特征

操作型业务，consumer 消费 producer 生产的消息，进行自身业务，这个消息就类似于 trigger
可支撑的流量较大，并且可支撑下游 consumer 较多，rebalance 需要一定的时间

kafka 架构

以 topic 为单位，一 topic 可拆分多个 partition，每个 partition 都可以有多个从 partition，不同 partition 分布在不同 broker 上
以 partition 为单位，形成 AR（Assigned Repllicas），ISR（In Sync Repllicas），OSR（Out Sync Repllicas），主 partition 接收到消息后按照 ack 策略同步到 ISR 中从 partition
1. ack = 0，producer 发出消息后就不管了
2. ack = 1，producer 发出消息写入主 partition 所在 broker 的磁盘就算成功
3. ack = all，producer 发出消息写入主 partition 以及 ISR 上所有副 partition 的磁盘才算成功

kafka 没有主从读写分离的原因

不能主从读写分离的原因
1. kafka 承接的大多是操作型业务，这部分读操作对数据延迟非常敏感。
2. kafka 主从同步为半同步复制，并且有部分 partition 在 OSR 上，数据延迟较大
3. kafka 主 partition 接收到消息后，可以根据 ack 策略落盘，如果不是 all 的话存在数据丢失的风险
不需要主从读写分离的原因
1. kafka 本身就是多 partition 的架构，不同 parition 在不同的 broker 上，多主节点的结构本身分流了流量
2. kafka 本身就有成熟的 rebalance 机制，partition 上线与下线都比较无感

本文首发于cartoon的博客

转载请注明出处:https://cartoonyu.github.io

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用

服务器托管

咨询：董先生

电话13051898268 QQ/微信93663045！

上一篇: 【画图整理】信息在计算机中的表示
下一篇: Python实战：用Selenium爬取网页数据