diff --git "a/Spark Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/4.1 Executor \347\253\257\351\225\277\346\227\266\345\256\271\351\224\231\350\257\246\350\247\243.md" "b/Spark Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/4.1 Executor \347\253\257\351\225\277\346\227\266\345\256\271\351\224\231\350\257\246\350\247\243.md" index 18d76ad..e0f1474 100644 --- "a/Spark Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/4.1 Executor \347\253\257\351\225\277\346\227\266\345\256\271\351\224\231\350\257\246\350\247\243.md" +++ "b/Spark Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/4.1 Executor \347\253\257\351\225\277\346\227\266\345\256\271\351\224\231\350\257\246\350\247\243.md" @@ -337,7 +337,7 @@ override def next(): ByteBuffer = synchronized { - 由 Spark Streaming 直接管理 offset —— 可以给定 offset 范围,直接去 Kafka 的硬盘上读数据,使用 Spark Streaming 自身的均衡来代替 Kafka 做的均衡 - 这样可以保证,每个 offset 范围属于且只属于一个 batch,从而保证 exactly-once -这里我们以 Direct 方式为例,详解一下 Spark Streaming 在源头数据实效后,是如果从上游重放数据的。 +这里我们以 Direct 方式为例,详解一下 Spark Streaming 在源头数据失效后,是如果从上游重放数据的。 这里的实现分为两个层面: diff --git "a/Structured Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/2.2 Structured Streaming \344\271\213 Sink \350\247\243\346\236\220.md" "b/Structured Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/2.2 Structured Streaming \344\271\213 Sink \350\247\243\346\236\220.md" index 5355d07..3dafb77 100644 --- "a/Structured Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/2.2 Structured Streaming \344\271\213 Sink \350\247\243\346\236\220.md" +++ "b/Structured Streaming \346\272\220\347\240\201\350\247\243\346\236\220\347\263\273\345\210\227/2.2 Structured Streaming \344\271\213 Sink \350\247\243\346\236\220.md" @@ -263,7 +263,7 @@ writeStream | **Kafka** | ![negative](1.imgs/negative.png) | 已支持 | Kafka 目前不支持幂等写入,所以可能会有重复写入
(但推荐接着 Kafka 使用 streaming de-duplication 来去重) | | **ForeachSink** (自定操作不幂等) | ![negative](1.imgs/negative.png) | 已支持 | 不推荐使用不幂等的自定操作 | -这里我们特别强调一下,虽然 Structured Streaming 也内置了 `console` 这个 Source,但其实它的主要用途只是在技术会议/讲座上做 demo,不应用于线上生产系统。 +这里我们特别强调一下,虽然 Structured Streaming 也内置了 `console` 这个 Sink,但其实它的主要用途只是在技术会议/讲座上做 demo,不应用于线上生产系统。 ## 参考资料