在Spark中,可以使用sc.textFile()
方法來讀取HDFS文件。以下是一個簡單的示例:
from pyspark import SparkContext
# 創建SparkContext
sc = SparkContext("local", "HDFS Read Example")
# 讀取HDFS文件
rdd = sc.textFile("hdfs://path/to/your/file.txt")
# 打印文件內容
for line in rdd.collect():
print(line)
# 關閉SparkContext
sc.stop()
在上面的示例中,textFile()
方法用于讀取HDFS中的文件,并返回一個RDD對象。然后可以通過collect()
方法獲取RDD中的所有數據,并進行處理。最后記得要調用stop()
方法來關閉SparkContext。