Pyspark如何讀取parquet數據

發布時間：2021-12-04 15:14:27 來源：億速云閱讀：411 作者：柒染欄目：互聯網科技

這期內容當中小編將會給大家帶來有關Pyspark如何讀取parquet數據，文章內容豐富且以專業的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量；壓縮編碼可以降低磁盤存儲空間，使用更高效的壓縮編碼節約存儲空間；只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。parquet數據：列式存儲結構，由Twitter和Cloudera合作開發，相比于行式存儲，其特點是：

那么我們怎么在pyspark中讀取和使用parquet數據呢？我以local模式， linux下的pycharm執行作說明。

首先，導入庫文件和配置環境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
 
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定
 
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark進行讀取，得到DataFrame格式的數據：host:port 屬于主機和端口號

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式數據有一些方法可以使用，例如：

1.df.first() ：顯示第一條數據，Row格式

print(df.first())

Pyspark如何讀取parquet數據

2.df.columns：列名

3.df.count()：數據量，數據條數

4.df.toPandas()：從spark的DataFrame格式數據轉到Pandas數據結構

5.df.show()：直接顯示表數據；其中df.show(n) 表示只顯示前n行信息

6.type(df)：顯數據示格式

Pyspark如何讀取parquet數據

上述就是小編為大家分享的Pyspark如何讀取parquet數據了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pyspark如何讀取parquet數據

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pyspark如何讀取parquet數據

猜你喜歡

最新資訊

相關推薦

相關標簽