如何進行Spark SQL中的Structured API分析

發布時間：2022-01-10 11:12:34 來源：億速云閱讀：107 作者：柒染欄目：大數據

這篇文章主要為大家分析了如何進行Spark SQL中的Structured API分析的相關知識點，內容詳細易懂，操作細節合理，具有一定參考價值。如果感興趣的話，不妨跟著跟隨小編一起來看看，下面跟著小編一起深入學習“如何進行Spark SQL中的Structured API分析”的知識吧。

一、創建DataFrame和Dataset

1.1 創建DataFrame

Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 創建。創建后應用程序就可以從現有 RDD，Hive 表或 Spark 數據源創建 DataFrame。示例如下：

val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()

// 建議在進行 spark SQL 編程前導入下面的隱式轉換，因為 DataFrames 和 dataSets 中很多操作都依賴了隱式轉換
import spark.implicits._

可以使用 spark-shell 進行測試，需要注意的是 spark-shell 啟動后會自動創建一個名為 spark 的 SparkSession，在命令行中可以直接引用即可。

1.2 創建Dataset

Spark 支持由內部數據集和外部數據集來創建 DataSet，其創建方式分別如下：

1. 由外部數據集創建

// 1.需要導入隱式轉換
import spark.implicits._

// 2.創建 case class,等價于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由外部數據集創建 Datasets
val ds = spark.read.json("/usr/file/emp.json").as[Emp]
ds.show()

2. 由內部數據集創建

// 1.需要導入隱式轉換
import spark.implicits._

// 2.創建 case class,等價于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由內部數據集創建 Datasets
val caseClassDS = Seq(Emp("ALLEN", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0),
                      Emp("JONES", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0))
                    .toDS()
caseClassDS.show()

1.3 由RDD創建DataFrame

Spark 支持兩種方式把 RDD 轉換為 DataFrame，分別是使用反射推斷和指定 Schema 轉換：

1. 使用反射推斷

// 1.導入隱式轉換
import spark.implicits._

// 2.創建部門類
case class Dept(deptno: Long, dname: String, loc: String)

// 3.創建 RDD 并轉換為 dataSet
val rddToDS = spark.sparkContext
  .textFile("/usr/file/dept.txt")
  .map(_.split("\t"))
  .map(line => Dept(line(0).trim.toLong, line(1), line(2)))
  .toDS()  // 如果調用 toDF() 則轉換為 dataFrame

2. 以編程方式指定Schema

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._

// 1.定義每個列的列類型
val fields = Array(StructField("deptno", LongType, nullable = true),
                   StructField("dname", StringType, nullable = true),
                   StructField("loc", StringType, nullable = true))

// 2.創建 schema
val schema = StructType(fields)

// 3.創建 RDD
val deptRDD = spark.sparkContext.textFile("/usr/file/dept.txt")
val rowRDD = deptRDD.map(_.split("\t")).map(line => Row(line(0).toLong, line(1), line(2)))

// 4.將 RDD 轉換為 dataFrame
val deptDF = spark.createDataFrame(rowRDD, schema)
deptDF.show()

1.4 DataFrames與Datasets互相轉換

Spark 提供了非常簡單的轉換方法用于 DataFrame 與 Dataset 間的互相轉換，示例如下：

# DataFrames轉Datasets
scala> df.as[Emp]
res1: org.apache.spark.sql.Dataset[Emp] = [COMM: double, DEPTNO: bigint ... 6 more fields]

# Datasets轉DataFrames
scala> ds.toDF()
res2: org.apache.spark.sql.DataFrame = [COMM: double, DEPTNO: bigint ... 6 more fields]

二、Columns列操作

2.1 引用列

Spark 支持多種方法來構造和引用列，最簡單的是使用 col() 或 column() 函數。

col("colName")
column("colName")

// 對于 Scala 語言而言，還可以使用$"myColumn"和'myColumn 這兩種語法糖進行引用。
df.select($"ename", $"job").show()
df.select('ename, 'job).show()

2.2 新增列

// 基于已有列值新增列
df.withColumn("upSal",$"sal"+1000)
// 基于固定值新增列
df.withColumn("intCol",lit(1000))

2.3 刪除列

// 支持刪除多個列
df.drop("comm","job").show()

2.4 重命名列

df.withColumnRenamed("comm", "common").show()

需要說明的是新增，刪除，重命名列都會產生新的 DataFrame，原來的 DataFrame 不會被改變。

三、使用Structured API進行基本查詢

// 1.查詢員工姓名及工作
df.select($"ename", $"job").show()

// 2.filter 查詢工資大于 2000 的員工信息
df.filter($"sal" > 2000).show()

// 3.orderBy 按照部門編號降序，工資升序進行查詢
df.orderBy(desc("deptno"), asc("sal")).show()

// 4.limit 查詢工資最高的 3 名員工的信息
df.orderBy(desc("sal")).limit(3).show()

// 5.distinct 查詢所有部門編號
df.select("deptno").distinct().show()

// 6.groupBy 分組統計部門人數
df.groupBy("deptno").count().show()

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

// 1.首先需要將 DataFrame 注冊為臨時視圖
df.createOrReplaceTempView("emp")

// 2.查詢員工姓名及工作
spark.sql("SELECT ename,job FROM emp").show()

// 3.查詢工資大于 2000 的員工信息
spark.sql("SELECT * FROM emp where sal > 2000").show()

// 4.orderBy 按照部門編號降序，工資升序進行查詢
spark.sql("SELECT * FROM emp ORDER BY deptno DESC,sal ASC").show()

// 5.limit  查詢工資最高的 3 名員工的信息
spark.sql("SELECT * FROM emp ORDER BY sal DESC LIMIT 3").show()

// 6.distinct 查詢所有部門編號
spark.sql("SELECT DISTINCT(deptno) FROM emp").show()

// 7.分組統計部門人數
spark.sql("SELECT deptno,count(ename) FROM emp group by deptno").show()

4.2 全局臨時視圖

上面使用 createOrReplaceTempView 創建的是會話臨時視圖，它的生命周期僅限于會話范圍，會隨會話的結束而結束。

你也可以使用 createGlobalTempView 創建全局臨時視圖，全局臨時視圖可以在所有會話之間共享，并直到整個 Spark 應用程序終止后才會消失。全局臨時視圖被定義在內置的 global_temp 數據庫下，需要使用限定名稱進行引用，如 SELECT * FROM global_temp.view1。

// 注冊為全局臨時視圖
df.createGlobalTempView("gemp")

// 使用限定名稱進行引用
spark.sql("SELECT ename,job FROM global_temp.gemp").show()

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何進行Spark SQL中的Structured API分析

一、創建DataFrame和Dataset

1.1 創建DataFrame

1.2 創建Dataset

1. 由外部數據集創建

2. 由內部數據集創建

1.3 由RDD創建DataFrame

1. 使用反射推斷

2. 以編程方式指定Schema

1.4 DataFrames與Datasets互相轉換

二、Columns列操作

2.1 引用列

2.2 新增列

2.3 刪除列

2.4 重命名列

三、使用Structured API進行基本查詢

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

4.2 全局臨時視圖

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何進行Spark SQL中的Structured API分析

一、創建DataFrame和Dataset

1.1 創建DataFrame

1.2 創建Dataset

1. 由外部數據集創建

2. 由內部數據集創建

1.3 由RDD創建DataFrame

1. 使用反射推斷

2. 以編程方式指定Schema

1.4 DataFrames與Datasets互相轉換

二、Columns列操作

2.1 引用列

2.2 新增列

2.3 刪除列

2.4 重命名列

三、使用Structured API進行基本查詢

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

4.2 全局臨時視圖

猜你喜歡

最新資訊

相關推薦

相關標簽