Compatibility Issue: dbldatagen DataAnalyzer Not Accepting Spark Connect DataFrame #260

npiesco · 2024-04-04T18:28:42Z

Expected Behavior

The dbldatagen package's DataAnalyzer won't accept a Spark Connect DataFrame (pyspark.sql.connect.dataframe.DataFrame) as input.

Current Behavior

The dbldatagen package's DataAnalyzer does not accept a Spark Connect DataFrame as input and raises an AssertionError with the message "df must be a valid Pyspark dataframe".
The isinstance check isinstance(df, DataFrame) returns False for a Spark DataFrame, even after converting it to a Pandas DataFrame and creating a new DataFrame using spark.createDataFrame(pdf).

Steps to Reproduce (for bugs)

import dbldatagen as dg
import pandas as pd
from pyspark.sql import DataFrame

dfSource = spark.sql("SELECT * FROM db.schema.table LIMIT 10000")
df = dfSource

analyzer = dg.DataAnalyzer(sparkSession=spark, df=dfSource)
generatedCode = analyzer.scriptDataGeneratorFromData()

print(generatedCode) #AssertionError: sourceDf must be a valid Pyspark dataframe

print(isinstance(df, DataFrame))  # Output: False
print(type(df))  # Output: <class 'pyspark.sql.connect.dataframe.DataFrame'> not pyspark.sql.dataframe.DataFrame

pdf = df.toPandas()
df_traditional = spark.createDataFrame(pdf)

print(isinstance(df_traditional, DataFrame))  # Output: False
print(type(df_traditional))  # Output: <class 'pyspark.sql.connect.dataframe.DataFrame'> not pyspark.sql.dataframe.DataFrame

Context

Code is attempting to use dbldatagen package to analyze/generate data based on an existing Spark DataFrame.
Spark DataFrame is created using Spark Connect, resulting in a pyspark.sql.connect.dataframe.DataFrame instead of traditional pyspark.sql.dataframe.DataFrame.
The dbldatagen package's DataAnalyzer expects a traditional PySpark DataFrame, pyspark.sql.dataframe.DataFrame, and raises an assertion error when provided with a Spark Connect DataFrame.

Your Environment

dbldatagen version used: 0.3.6
Databricks Runtime version: 14.2.x-photon-scala2.12
Spark version used: 3.5.0
Cloud environment used: Azure Databricks

The text was updated successfully, but these errors were encountered:

chris2shehu · 2024-05-16T17:37:16Z

Having the same issue. We're unable to find a work around.

ronanstokes-db · 2024-05-21T20:39:41Z

Thanks for raising this. We are working on preparing a new release with a number of feature updates and will look to incorporate a fix for this into the new release.

As a short term work around, we'll relax this check to a warning

ronanstokes-db · 2024-05-22T21:30:01Z

Current hotfix relaxes this warning. Hotfix was released today

chris2shehu · 2024-05-22T23:12:24Z

Thanks guys! Can confirm it's working for our team now. Keep up the great work!

ronanstokes-db self-assigned this May 21, 2024

ronanstokes-db added bug Something isn't working workaround labels May 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Compatibility Issue: dbldatagen DataAnalyzer Not Accepting Spark Connect DataFrame #260

Compatibility Issue: dbldatagen DataAnalyzer Not Accepting Spark Connect DataFrame #260

npiesco commented Apr 4, 2024 •

edited

chris2shehu commented May 16, 2024

ronanstokes-db commented May 21, 2024

ronanstokes-db commented May 22, 2024 •

edited

chris2shehu commented May 22, 2024

Compatibility Issue: dbldatagen DataAnalyzer Not Accepting Spark Connect DataFrame #260

Compatibility Issue: dbldatagen DataAnalyzer Not Accepting Spark Connect DataFrame #260

Comments

npiesco commented Apr 4, 2024 • edited

Expected Behavior

Current Behavior

Steps to Reproduce (for bugs)

Context

Your Environment

chris2shehu commented May 16, 2024

ronanstokes-db commented May 21, 2024

ronanstokes-db commented May 22, 2024 • edited

chris2shehu commented May 22, 2024

npiesco commented Apr 4, 2024 •

edited

ronanstokes-db commented May 22, 2024 •

edited