第1章 初识Kafka 1
1.1发布与订阅消息系统 1
1.1.1如何开始 2
1.1.2独立的队列系统 3
1.2 Kafka登场 4
1.2.1消息和批次 4
1.2.2模式 4
1.2.3主题和分区 5
1.2.4生产者和消费者 5
1.2.5 broker和集群 6
1.2.6多集群 7
1.3为什么选择Kafka 8
1.3.1多个生产者 8
1.3.2多个消费者 8
1.3.3基于磁盘的数据存储 9
1.3.4伸缩性 9
1.3.5高性能 9
1.4数据生态系统 9
1.5起源故事 11
1.5.1 LinkedIn的问题 11
1.5.2 Kafka的诞生 12
1.5.3走向开源 12
1.5.4命名 13
1.6开始Kafka之旅 13
第2章 安装Kafka 14
2.1要事先行 14
2.1.1选择操作系统 14
2.1.2安装Java 14
2.1.3安装Zookeeper 15
2.2安装Kafka Broker 17
2.3 broker配置 18
2.3.1常规配置 18
2.3.2主题的默认配置 19
2.4硬件的选择 23
2.4.1磁盘吞吐量 23
2.4.2磁盘容量 23
2.4.3内存 23
2.4.4网络 24
2.4.5 CPU 24
2.5云端的Kafka 24
2.6 Kafka集群 24
2.6.1需要多少个broker 25
2.6.2 broker配置 25
2.6.3操作系统调优 26
2.7生产环境的注意事项 28
2.7.1垃圾回收器选项 28
2.7.2数据中心布局 29
2.7.3共享Zookeeper 29
2.8总结 30
第3章Kafka生产者——向Kafka写入数据 31
3.1生产者概览 32
3.2创建Kafka生产者 33
3.3发送消息到Kafka 34
3.3.1同步发送消息 35
3.3.2异步发送消息 35
3.4生产者的配置 36
3.5序列化器 39
3.5.1自定义序列化器 39
3.5.2使用Avro序列化 41
3.5.3在Kafka里使用Avro 42
3.6分区 45
3.7旧版的生产者API 46
3.8总结 47
第4章Kafka消费者——从Kafka读取数据 48
4.1 KafkaConsumer概念 48
4.1.1消费者和消费者群组 48
4.1.2消费者群组和分区再均衡 51
4.2创建Kafka消费者 52
4.3订阅主题 53
4.4轮询 53
4.5消费者的配置 55
4.6提交和偏移量 57
4.6.1自动提交 58
4.6.2提交当前偏移量 59
4.6.3异步提交 59
4.6.4同步和异步组合提交 61
4.6.5提交特定的偏移量 61
4.7 再均衡监听器 62
4.8从特定偏移量处开始处理记录 64
4.9如何退出 66
4.10反序列化器 67
4.11独立消费者——为什么以及怎样使用没有群组的消费者 71
4.12旧版的消费者API 71
4.13总结 72
第5章 深入Kafka 73
5.1集群成员关系 73
5.2控制器 74
5.3复制 74
5.4处理请求 76
5.4.1生产请求 78
5.4.2获取请求 78
5.4.3其他请求 80
5.5物理存储 81
5.5.1分区分配 81
5.5.2文件管理 82
5.5.3文件格式 83
5.5.4索引 84
5.5.5清理 84
5.5.6清理的工作原理 84
5.5.7被删除的事件 86
5.5.8何时会清理主题 86
5.9总结 86
第6章 可靠的数据传递 87
6.1可靠性保证 87
6.2复制 88
6.3 broker配置 89
6.3.1复制系数 89
6.3.2不完全的首领选举 90
6.3.3最少同步副本 91
6.4在可靠的系统里使用生产者 92
6.4.1发送确认 92
6.4.2配置生产者的重试参数 93
6.4.3额外的错误处理 94
6.5在可靠的系统里使用消费者 94
6.5.1消费者的可靠性配置 95
6.5.2显式提交偏移量 95
6.6验证系统可靠性 97
6.6.1配置验证 98
6.6.2应用程序验证 98
6.6.3 在生产环境监控可靠性 99
6.7总结 100
第7章 构建数据管道 101
7.1构建数据管道时需要考虑的问题 102
7.1.1及时性 102
7.1.2可靠性 102
7.1.3高吞吐量和动态吞吐量 103
7.1.4数据格式 103
7.1.5转换 104
7.1.6安全性 104
7.1.7故障处理能力 104
7.1.8耦合性和灵活性 105
7.2如何在Connect API和客户端API之间作出选择 105
7.3 Kafka Connect 106
7.3.1运行Connect 106
7.3.2连接器示例——文件数据源和文件数据池 107
7.3.3连接器示例——从MySQL到ElasticSearch 109
7.3.4 深入理解Connect 114
7.4 Connect之外的选择 116
7.4.1用于其他数据存储的摄入框架 116
7.4.2基于图形界面的ETL工具 117
7.4.3流式处理框架 117
7.5总结 117
第8章 跨集群数据镜像 118
8.1跨集群镜像的使用场景 118
8.2多集群架构 119
8.2.1跨数据中心通信的一些现实情况 119
8.2.2 Hub和Spoke架构 120
8.2.3双活架构 121
8.2.4主备架构 123
8.2.5延展集群 127
8.3 Kaflka的MirrorMaker 128
8.3.1如何配置 129
8.3.2在生产环境部署MirrorMaker 130
8.3.3 MirrorMaker调优 132
8.4 其他跨集群镜像方案 134
8.4.1优步的uReplicator 134
8.4.2 Confluent的Replicator 135
8.5总结 135
第9章 管理Kaf ka 136
9.1主题操作 136
9.1.1创建主题 137
9.1.2增加分区 138
9.1.3删除主题 138
9.1.4列出集群里的所有主题 139
9.1.5列出主题详细信息 139
9.2消费者群组 140
9.2.1列出并描述群组 140
9.2.2删除群组 142
9.2.3偏移量管理 142
9.3动态配置变更 143
9.3.1覆盖主题的默认配置 143
9.3.2覆盖客户端的默认配置 145
9.3.3列出被覆盖的配置 145
9.3.4移除被覆盖的配置 146
9.4分区管理 146
9.4.1首选的首领选举 146
9.4.2修改分区副本 147
9.4.3修改复制系数 150
9.4.4转储日志片段 151
9.4.5副本验证 152
9.5消费和生产 153
9.5.1控制台消费者 153
9.5.2控制台生产者 155
9.6客户端ACL 157
9.7不安全的操作 157
9.7.1移动集群控制器 157
9.7.2取消分区重分配 157
9.7.3移除待删除的主题 158
9.7.4手动删除主题 158
9.8总结 159
第10章 监控Kafka 160
10.1度量指标基础 160
10.1.1度量指标在哪里 160
10.1.2内部或外部度量 161
10.1.3应用程序健康检测 161
10.1.4度量指标的覆盖面 161
10.2 broker的度量指标 162
10.2.1非同步分区 162
10.2.2 broker度量指标 166
10.2.3主题和分区的度量指标 173
10.2.4 Java虚拟机监控 174
10.2.5操作系统监控 175
10.2.6日志 176
10.3客户端监控 177
10.3.1生产者度量指标 177
10.3.2消费者度量指标 179
10.3.3配额 181
10.4延时监控 182
10.5端到端监控 183
10.6总结 183
第11章 流式处理 184
11.1什么是流式处理 185
11.2流式处理的一些概念 186
11.2.1时间 187
11.2.2状态 188
11.2.3流和表的二元性 188
11.2.4时间窗口 189
11.3流式处理的设计模式 190
11.3.1单个事件处理 191
11.3.2使用本地状态 191
11.3.3多阶段处理和重分区 193
11.3.4使用外部查找——流和表的连接 193
11.3.5流与流的连接 195
11.3.6乱序的事件 195
11.3.7重新处理 196
11.4 Streams示例 197
11.4.1字数统计 197
11.4.2股票市场统计 199
11.4.3填充点击事件流 201
11.5 Kafka Streams的架构概览 202
11.5.1构建拓扑 202
11.5.2对拓扑进行伸缩 203
11.5.3从故障中存活下来 205
11.6流式处理使用场景 205
11.7如何选择流式处理框架 206
11.8总结 208
附录A在其他操作系统上安装Kafka 209
作者介绍 214
封面介绍 214