explode
函數是一個用于將列表或元組等可迭代對象中的元素分解為多行的函數,通常在數據處理和分析過程中使用
在 PySpark 中,explode
函數返回的結果類型是一個新的 DataFrame,其中包含原始 DataFrame 的所有列,以及分解后的列。分解后的列將具有與原始列相同的名稱,但包含分解后的元素。
例如,如果你有一個包含兩列(id
和 items
)的 DataFrame,并使用 explode
函數分解 items
列,那么結果將是一個新的 DataFrame,其中每個 items
列的元素都會新行出現,同時保留 id
列的值。
需要注意的是,explode
函數不會修改原始 DataFrame,而是返回一個新的 DataFrame,因此你需要將結果分配給一個新的變量或覆蓋原始變量以保存更改。