在Spark中讀取MySQL數據庫數據,可以使用Spark的DataFrame API和JDBC連接器來實現。以下是一種常見的方法:
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>{your_version}</version>
</dependency>
val spark = SparkSession.builder()
.appName("Read from MySQL")
.getOrCreate()
val df = spark.read.format("jdbc")
.option("url", "jdbc:mysql://localhost:3306/{database_name}")
.option("user", "{username}")
.option("password", "{password}")
.option("dbtable", "{table_name}")
.load()
在這里,需要替換大括號中的內容為實際的數據庫連接信息。
df.filter($"column_name" === "value").show()
spark.stop()
通過以上步驟,就可以在Spark應用程序中成功讀取MySQL數據庫中的數據了。