Improve test and fix up native build

holdenk · holdenk · commit 42e37ecec26c · 2025-10-25T18:07:24.000-07:00
diff --git a/core/src/main/scala/com/high-performance-spark-examples/streaming/structuredstreaming/JsonWindowedAggExample.scala b/core/src/main/scala/com/high-performance-spark-examples/streaming/structuredstreaming/JsonWindowedAggExample.scala
@@ -1,11 +1,8 @@
 package com.highperformancespark.examples.structuredstreaming
 
-// Windowed aggregation with watermark on JSON input
-// Watermarking is needed to bound state and drop late data
-
 import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.functions._
-import org.apache.spark.sql.streaming.Trigger
+import org.apache.spark.sql.streaming._
 
 object JsonWindowedAggExample {
   def main(args: Array[String]): Unit = {
@@ -14,25 +11,56 @@ object JsonWindowedAggExample {
       .appName("JsonWindowedAggExample")
       .master("local[2]")
       .getOrCreate()
+    run(spark)
+  }
+
+  def run(spark: SparkSession): Unit = {
+    val query = makeQuery(spark)
+    query.awaitTermination()
+  }
 
+  /** Your original behavior (console sink, no watermark, continuous). */
+  def makeQuery(spark: SparkSession): StreamingQuery = {
+    makeQueryWith(
+      spark,
+      inputPath = "/tmp/json_input",
+      checkpointDir = "/tmp/checkpoints/json_windowed_agg",
+      outputFormat = "console",
+      queryName = None,
+      trigger = Trigger.ProcessingTime("5 seconds"),
+      addWatermark = false
+    )
+  }
+
+  /** Parametric builder used by tests (and optional batch-like runs). */
+  def makeQueryWith(
+      spark: SparkSession,
+      inputPath: String,
+      checkpointDir: String,
+      outputFormat: String,
+      queryName: Option[String],
+      trigger: Trigger,
+      addWatermark: Boolean
+  ): StreamingQuery = {
     import spark.implicits._
-    // tag::streaming_ex_json_window[]
+
     val df = spark.readStream
       .format("json")
       .schema("timestamp TIMESTAMP, word STRING")
-      .load("/tmp/json_input")
+      .load(inputPath)
 
-    val windowed = df
+    val base = if (addWatermark) df.withWatermark("timestamp", "5 minutes") else df
+    val windowed = base
       .groupBy(window(col("timestamp"), "10 minutes"), col("word"))
       .count()
-    // end::streaming_ex_json_window[]
 
-    val query = windowed.writeStream
+    val writer = windowed.writeStream
       .outputMode("append")
-      .format("console")
-      .option("checkpointLocation", "./tmp/checkpoints/json_windowed_agg")
-      .start()
+      .format(outputFormat)
+      .option("checkpointLocation", checkpointDir)
+      .trigger(trigger)
 
-    query.awaitTermination()
+    val named = queryName.fold(writer)(n => writer.queryName(n))
+    named.start()
   }
 }
diff --git a/core/src/test/scala/com/high-performance-spark-examples/streaming/structuredstreaming/JsonWindowedAggExampleSuite.scala b/core/src/test/scala/com/high-performance-spark-examples/streaming/structuredstreaming/JsonWindowedAggExampleSuite.scala
@@ -1,51 +1,110 @@
 package com.highperformancespark.examples.structuredstreaming
 
-// tag::streaming_ex_json_window_test[]
-// Test for JsonWindowedAggExample: verifies late rows are dropped and state is bounded
-
 import org.scalatest.funsuite.AnyFunSuite
-import org.apache.spark.sql.SparkSession
-import org.apache.spark.sql.streaming.Trigger
+import org.apache.spark.sql.{SaveMode, SparkSession}
 import org.apache.spark.sql.functions._
+import org.apache.spark.sql.streaming.Trigger
+import java.nio.file.Files
 import java.sql.Timestamp
 
-class JsonWindowedAggExampleSuite extends AnyFunSuite {
-  test("windowed agg drops late rows beyond watermark") {
-  val spark = SparkSession.builder()
+class JsonWindowedAggExampleFileIT extends AnyFunSuite {
+
+  private def withSpark[T](f: SparkSession => T): T = {
+    val spark = SparkSession.builder()
+      .appName("JsonWindowedAggExampleFileIT")
       .master("local[2]")
-      .appName("JsonWindowedAggExampleSuite")
+      .config("spark.ui.enabled", "false")
+      .config("spark.sql.shuffle.partitions", "2")
       .getOrCreate()
-    import spark.implicits._
-
-    import org.apache.spark.sql.execution.streaming.MemoryStream
-    val inputStream = MemoryStream[(Timestamp, String)](1, spark.sqlContext)
-    val now = System.currentTimeMillis()
-    val rows = Seq(
-      (new Timestamp(now - 1000 * 60 * 5), "foo"), // within window
-      (new Timestamp(now - 1000 * 60 * 50), "bar"), // late, beyond watermark
-      (new Timestamp(now - 1000 * 60 * 2), "foo")  // within window
-    )
-    inputStream.addData(rows: _*)
-    val df = inputStream.toDF().toDF("timestamp", "word")
-    val withWatermark = df.withWatermark("timestamp", "42 minutes")
-    val windowed = withWatermark
-      .groupBy(window(col("timestamp"), "10 minutes"), col("word"))
-      .count()
-
-    val query = windowed.writeStream
-      .outputMode("append")
-      .format("memory")
-      .queryName("json_windowed_agg")
-      .trigger(Trigger.Once())
-      .option("checkpointLocation", "./tmp/checkpoints/json_windowed_agg_test")
-      .start()
-    query.processAllAvailable()
-    query.awaitTermination()
-
-    val result = spark.sql("select word, count from json_windowed_agg").collect().map(_.getString(0)).toSet
-    assert(result.contains("foo"))
-    assert(!result.contains("bar"), "Late row 'bar' should be dropped")
-    spark.stop()
+    try f(spark) finally spark.stop()
+  }
+
+  test("file JSON source: sequential writes close windows via watermark (append mode)") {
+    withSpark { spark =>
+      import spark.implicits._
+
+      val inputDir = Files.createTempDirectory("json-input-it").toFile.getAbsolutePath
+      val chkDir   = Files.createTempDirectory("chk-it").toFile.getAbsolutePath
+      val qName    = "json_winagg_mem_it"
+
+      // Start the stream FIRST, using a periodic trigger and a watermark
+      val q = JsonWindowedAggExample.makeQueryWith(
+        spark,
+        inputPath = inputDir,
+        checkpointDir = chkDir,
+        outputFormat = "memory",                       // assertable sink
+        queryName = Some(qName),
+        trigger = Trigger.ProcessingTime("250 milliseconds"),
+        addWatermark = true                            // watermark = 5 minutes (set in builder)
+      )
+
+      // --- Batch 1: events in [10:00,10:10)
+      Seq(
+        ("2025-01-01 10:01:00", "hello"),
+        ("2025-01-01 10:05:00", "hello"),
+        ("2025-01-01 10:05:00", "world")
+      ).map { case (ts, w) => (Timestamp.valueOf(ts), w) }
+        .toDF("timestamp","word")
+        .write.mode(SaveMode.Append).json(inputDir)
+
+      // Let the stream pick up batch 1
+      q.processAllAvailable() // ok in tests
+
+      // Nothing should be emitted yet in append mode (window not closed)
+      assert(spark.table(qName).count() == 0)
+
+      // --- Batch 2: later event at 10:16 moves max event time to 10:16
+      // Watermark = maxEventTime - 5m = 10:11 >= 10:10, so [10:00,10:10) closes and emits.
+      Seq(("2025-01-01 10:16:00", "hello"))
+        .map { case (ts, w) => (Timestamp.valueOf(ts), w) }
+        .toDF("timestamp","word")
+        .write.mode(SaveMode.Append).json(inputDir)
+
+      q.processAllAvailable()
+
+      val afterBatch2 = spark.table(qName)
+        .select(
+          date_format(col("window.start"), "yyyy-MM-dd HH:mm:ss").as("start"),
+          date_format(col("window.end"),   "yyyy-MM-dd HH:mm:ss").as("end"),
+          col("word"),
+          col("count")
+        )
+        .collect()
+        .map(r => (r.getString(0), r.getString(1), r.getString(2), r.getLong(3)))
+        .toSet
+
+      val expectedAfterBatch2 = Set(
+        ("2025-01-01 10:00:00", "2025-01-01 10:10:00", "hello", 2L),
+        ("2025-01-01 10:00:00", "2025-01-01 10:10:00", "world", 1L)
+      )
+      assert(afterBatch2 == expectedAfterBatch2)
+
+      // --- Batch 3: event at 10:26 closes [10:10,10:20)
+      // New watermark = 10:21 >= 10:20 ⇒ the second window can now emit.
+      Seq(("2025-01-01 10:26:00", "noop"))
+        .map { case (ts, w) => (Timestamp.valueOf(ts), w) }
+        .toDF("timestamp","word")
+        .write.mode(SaveMode.Append).json(inputDir)
+
+      q.processAllAvailable()
+
+      val finalOut = spark.table(qName)
+        .select(
+          date_format(col("window.start"), "yyyy-MM-dd HH:mm:ss").as("start"),
+          date_format(col("window.end"),   "yyyy-MM-dd HH:mm:ss").as("end"),
+          col("word"),
+          col("count")
+        )
+        .collect()
+        .map(r => (r.getString(0), r.getString(1), r.getString(2), r.getLong(3)))
+        .toSet
+
+      val expectedFinal = expectedAfterBatch2 ++ Set(
+        ("2025-01-01 10:10:00", "2025-01-01 10:20:00", "hello", 1L)
+      )
+      assert(finalOut == expectedFinal)
+
+      q.stop()
+    }
   }
 }
-// end::streaming_ex_json_window_test[]
diff --git a/native/src/CMakeLists.txt b/native/src/CMakeLists.txt
@@ -14,6 +14,8 @@ option(SBT "Set if invoked from sbt-jni" OFF)
 #
 project (high-performance-spark)
 enable_language(Fortran)
+enable_language(C)
+enable_language(CXX)
 set(PROJECT_VERSION_MAJOR 0)
 set(PROJECT_VERSION_MINOR 0)
 set(PROJECT_VERSION_PATCH 0)
@@ -41,6 +43,9 @@ endif()
 #end::velox[]
 
 # Setup JNI
+if(DEFINED ENV{JAVA_HOME})
+  set(JAVA_HOME "$ENV{JAVA_HOME}" CACHE PATH "JAVA_HOME for JNI discovery")
+endif()
 find_package(JNI REQUIRED)
 if (JNI_FOUND)
     message (STATUS "JNI include directories: ${JNI_INCLUDE_DIRS}")