Which approach demonstrates a modular and testable way to use DataFrame.

Databricks Databricks-Certified-Professional-Data-Engineer Question Answer

Which approach demonstrates a modular and testable way to use DataFrame.transform for ETL code in PySpark?

class Pipeline:

def transform(self, df):

return df.withColumn( " value_upper " , upper(col( " value " )))

pipeline = Pipeline()

assertDataFrameEqual(pipeline.transform(test_input), expected)

def upper_value(df):

return df.withColumn( " value_upper " , upper(col( " value " )))

def filter_positive(df):

return df.filter(df[ " id " ] > 0)

pipeline_df = df.transform(upper_value).transform(filter_positive)

def upper_transform(df):

return df.withColumn( " value_upper " , upper(col( " value " )))

actual = test_input.transform(upper_transform)

assertDataFrameEqual(actual, expected)

def transform_data(input_df):

# transformation logic here

return output_df

test_input = spark.createDataFrame([(1, " a " )], [ " id " , " value " ])

assertDataFrameEqual(transform_data(test_input), expected)

Databricks-Certified-Professional-Data-Engineer PDF/Engine

Get 65% Discount on All Products, Use Coupon: "ac4s65"