[Feature Request]: Parallel reading support in SparkReceiverIO

### What would you like to happen?

Currently, [SparkReceiverIO](cci:2://file:///d:/open%20souce/beam/sdks/java/io/sparkreceiver/3/src/main/java/org/apache/beam/sdk/io/sparkreceiver/SparkReceiverIO.java:83:0-239:1) reads data using a single worker because the [Read](cci:2://file:///d:/open%20souce/beam/sdks/java/io/rrio/src/main/java/org/apache/beam/io/requestresponse/Cache.java:219:4-264:5) transform initializes with `Impulse.create()`, which produces a single initial element. This creates a scalability bottleneck as all data ingestion is constrained to one machine, regardless of the available worker pool.

I would like to implement a parallel reading mechanism in [SparkReceiverIO](cci:2://file:///d:/open%20souce/beam/sdks/java/io/sparkreceiver/3/src/main/java/org/apache/beam/sdk/io/sparkreceiver/SparkReceiverIO.java:83:0-239:1). This involves:
1.  Adding a [withNumReaders(int)](cci:1://file:///d:/open%20souce/beam/sdks/java/io/sparkreceiver/3/src/main/java/org/apache/beam/sdk/io/sparkreceiver/SparkReceiverIO.java:169:4-177:5) configuration method to the builder.
2.  Refactoring the implementation to use `Create.of(shards)` followed by `Reshuffle` when `numReaders > 1` is specified.
3.  Ensuring backward compatibility by defaulting to the single-reader behavior if `numReaders` is unnecessary.

This enhancement will allow `SparkReceiverIO` to scale horizontally, significantly increasing throughput for high-volume use cases.

### Issue Priority

Priority: 2 (default / most feature requests should be filed as P2)

### Issue Components

- [ ] Component: Python SDK
- [x] Component: Java SDK
- [ ] Component: Go SDK
- [ ] Component: Typescript SDK
- [x] Component: IO connector
- [ ] Component: Beam YAML
- [ ] Component: Beam examples
- [ ] Component: Beam playground
- [ ] Component: Beam katas
- [ ] Component: Website
- [ ] Component: Infrastructure
- [ ] Component: Spark Runner
- [ ] Component: Flink Runner
- [ ] Component: Samza Runner
- [ ] Component: Twister2 Runner
- [ ] Component: Hazelcast Jet Runner
- [ ] Component: Google Cloud Dataflow Runner

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Request]: Parallel reading support in SparkReceiverIO #37410

What would you like to happen?

Issue Priority

Issue Components

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Feature Request]: Parallel reading support in SparkReceiverIO #37410

Description

What would you like to happen?

Issue Priority

Issue Components

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions