[SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id #50831

zhengruifeng · 2025-05-08T08:40:39Z

What changes were proposed in this pull request?

ResolveLateralColumnAliasReference should retain the plan id

Why are the changes needed?

bug fix

before:

In [1]: from pyspark.sql import functions as sf

In [2]: df1 = spark.range(10).select((sf.col("id") + sf.lit(1)).alias("x"), (sf.col("x") + sf.lit(1)).alias("y"))

In [3]: df2 = spark.range(10).select(sf.col("id").alias("x"))

In [4]: df1.join(df2, df1.x == df2.x).select(df1.y)
Out[4]: 25/05/08 16:38:28 ERROR ErrorUtils: Spark Connect RPC error during: analyze. UserId: ruifeng.zheng. SessionId: af3deba7-1e48-49fd-adad-2046a72ed341.
org.apache.spark.sql.AnalysisException: [CANNOT_RESOLVE_DATAFRAME_COLUMN] Cannot resolve dataframe column "y". It's probably because of illegal references like `df1.select(df2.col("a"))`. SQLSTATE: 42704
	at org.apache.spark.sql.errors.QueryCompilationErrors$.cannotResolveDataFrameColumn(QueryCompilationErrors.scala:4147)
	at org.apache.spark.sql.catalyst.analysis.ColumnResolutionHelper.resolveDataFrameColumn(ColumnResolutionHelper.scala:562)
	at org.apache.spark.sql.catalyst.analysis.ColumnResolutionHelper.tryResolveDataFrameColumns(ColumnResolutionHelper.scala:537)

after:

In [1]: from pyspark.sql import functions as sf

In [2]: df1 = spark.range(10).select((sf.col("id") + sf.lit(1)).alias("x"), (sf.col("x") + sf.lit(1)).alias("y"))

In [3]: df2 = spark.range(10).select(sf.col("id").alias("x"))

In [4]: df1.join(df2, df1.x == df2.x).select(df1.y).show() 
                                                                                                                           +---+
|  y|
+---+
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
| 10|
+---+

Does this PR introduce any user-facing change?

yes, above query works after this change

How was this patch tested?

added test

Was this patch authored or co-authored using generative AI tooling?

no

dongjoon-hyun

Could you resolve the conflicts, @zhengruifeng ?

dongjoon-hyun

+1, LGTM.

xinrong-meng · 2025-05-08T20:50:12Z

SparkSessionE2ESuite and AdaptiveQueryExecSuite failed, would you rerun tests?

xinrong-meng · 2025-05-08T20:50:35Z

LGTM thank you!

cloud-fan · 2025-05-09T01:17:09Z

The k8s failure is unrelated, thanks, merging to master/4.0!

…e should retain the plan id ResolveLateralColumnAliasReference should retain the plan id bug fix before: ``` In [1]: from pyspark.sql import functions as sf In [2]: df1 = spark.range(10).select((sf.col("id") + sf.lit(1)).alias("x"), (sf.col("x") + sf.lit(1)).alias("y")) In [3]: df2 = spark.range(10).select(sf.col("id").alias("x")) In [4]: df1.join(df2, df1.x == df2.x).select(df1.y) Out[4]: 25/05/08 16:38:28 ERROR ErrorUtils: Spark Connect RPC error during: analyze. UserId: ruifeng.zheng. SessionId: af3deba7-1e48-49fd-adad-2046a72ed341. org.apache.spark.sql.AnalysisException: [CANNOT_RESOLVE_DATAFRAME_COLUMN] Cannot resolve dataframe column "y". It's probably because of illegal references like `df1.select(df2.col("a"))`. SQLSTATE: 42704 at org.apache.spark.sql.errors.QueryCompilationErrors$.cannotResolveDataFrameColumn(QueryCompilationErrors.scala:4147) at org.apache.spark.sql.catalyst.analysis.ColumnResolutionHelper.resolveDataFrameColumn(ColumnResolutionHelper.scala:562) at org.apache.spark.sql.catalyst.analysis.ColumnResolutionHelper.tryResolveDataFrameColumns(ColumnResolutionHelper.scala:537) ``` after: ``` In [1]: from pyspark.sql import functions as sf In [2]: df1 = spark.range(10).select((sf.col("id") + sf.lit(1)).alias("x"), (sf.col("x") + sf.lit(1)).alias("y")) In [3]: df2 = spark.range(10).select(sf.col("id").alias("x")) In [4]: df1.join(df2, df1.x == df2.x).select(df1.y).show() +---+ | y| +---+ | 2| | 3| | 4| | 5| | 6| | 7| | 8| | 9| | 10| +---+ ``` yes, above query works after this change added test no Closes #50831 from zhengruifeng/fix_lca. Authored-by: Ruifeng Zheng <[email protected]> Signed-off-by: Wenchen Fan <[email protected]> (cherry picked from commit 688281a) Signed-off-by: Wenchen Fan <[email protected]>

github-actions bot added SQL PYTHON labels May 8, 2025

zhengruifeng requested a review from cloud-fan May 8, 2025 08:42

zhengruifeng changed the title ~~[SPARK-52040][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id~~ [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id May 8, 2025

zhengruifeng added the CONNECT label May 8, 2025

github-actions bot removed the CONNECT label May 8, 2025

cloud-fan approved these changes May 8, 2025

View reviewed changes

dongjoon-hyun reviewed May 8, 2025

View reviewed changes

zhengruifeng added 3 commits May 8, 2025 21:50

fix

9a85e43

fix

981034c

test name

08fceef

zhengruifeng force-pushed the fix_lca branch from 5d6c8fa to 08fceef Compare May 8, 2025 13:50

dongjoon-hyun approved these changes May 8, 2025

View reviewed changes

zhengruifeng mentioned this pull request May 9, 2025

[SPARK-52040][PYTHON][SQL][CONNECT][4.0] ResolveLateralColumnAliasReference should retain the plan id #50841

Closed

cloud-fan closed this in 688281a May 9, 2025

zhengruifeng deleted the fix_lca branch May 9, 2025 01:20

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id #50831

[SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id #50831

zhengruifeng commented May 8, 2025 •

edited

Loading

dongjoon-hyun left a comment

dongjoon-hyun left a comment

xinrong-meng commented May 8, 2025

xinrong-meng commented May 8, 2025

cloud-fan commented May 9, 2025 •

edited

Loading

[SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id #50831

[SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference should retain the plan id #50831

Conversation

zhengruifeng commented May 8, 2025 • edited Loading

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

Was this patch authored or co-authored using generative AI tooling?

dongjoon-hyun left a comment

Choose a reason for hiding this comment

dongjoon-hyun left a comment

Choose a reason for hiding this comment

xinrong-meng commented May 8, 2025

xinrong-meng commented May 8, 2025

cloud-fan commented May 9, 2025 • edited Loading

zhengruifeng commented May 8, 2025 •

edited

Loading

cloud-fan commented May 9, 2025 •

edited

Loading