Pyspark讀取parquet數據過程的示例分析

發布時間：2021-05-12 11:02:42 來源：億速云閱讀：218 作者：小新欄目：開發技術

這篇文章主要介紹了Pyspark讀取parquet數據過程的示例分析，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

parquet數據：列式存儲結構，由Twitter和Cloudera合作開發，相比于行式存儲，其特點是：

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量；壓縮編碼可以降低磁盤存儲空間，使用更高效的壓縮編碼節約存儲空間；只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。

那么我們怎么在pyspark中讀取和使用parquet數據呢？我以local模式，linux下的pycharm執行作說明。

首先，導入庫文件和配置環境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark進行讀取，得到DataFrame格式的數據：host:port 屬于主機和端口號

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式數據有一些方法可以使用，例如：

1.df.first() ：顯示第一條數據，Row格式

print(df.first())

Pyspark讀取parquet數據過程的示例分析

2.df.columns：列名

3.df.count()：數據量，數據條數

4.df.toPandas()：從spark的DataFrame格式數據轉到Pandas數據結構

5.df.show()：直接顯示表數據；其中df.show(n) 表示只顯示前n行信息

6.type(df)：顯數據示格式

Pyspark讀取parquet數據過程的示例分析

感謝你能夠認真閱讀完這篇文章，希望小編分享的“Pyspark讀取parquet數據過程的示例分析”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關注億速云行業資訊頻道，更多相關知識等著你來學習!

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pyspark讀取parquet數據過程的示例分析

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pyspark讀取parquet數據過程的示例分析

猜你喜歡

最新資訊

相關推薦

相關標簽