在Spark中進行數據清洗通常包括以下幾個步驟:
drop()
方法刪除包含缺失值的行或使用fillna()
方法填充缺失值。val cleanedData = rawData.na.drop()
dropDuplicates()
方法刪除重復的行。val cleanedData = rawData.dropDuplicates()
withColumn()
方法將數據列的類型轉換為正確的類型。val cleanedData = rawData.withColumn("age", col("age").cast(IntegerType))
val cleanedData = rawData.filter(col("age") > 0)
val cleanedData = rawData.withColumn("name", trim(col("name")))
通過以上步驟,可以對數據進行清洗,使其符合分析需求。