PySpark 入門：通過JDBC連接數據庫(DataFrame)

本文轉載自查看原文 2022-03-29 22:02 1479 課程——Linux操作系統/ 課程——數據庫系統概論

這里以關系數據庫MySQL為例。首先，本博客教程（Ubuntu 20.04 安裝MySQL 8.X），在Linux系統中安裝好MySQL數據庫。這里假設你已經成功安裝了MySQL數據庫。下面我們要新建一個測試Spark程序的數據庫，數據庫名稱是“spark”，表的名稱是“student”

請執行下面命令在Linux中啟動MySQL數據庫，並完成數據庫和表的創建，以及樣例數據的錄入：

service mysql start
mysql -u root -p
# 屏幕會提示你輸入密碼

輸入密碼后，你就可以進入“mysql>”命令提示符狀態，然后就可以輸入下面的SQL語句完成數據庫和表的創建：

mysql> create database spark;
mysql> use spark;
mysql> create table student (id int(4), name char(20), gender char(4), age int(4));
mysql> alter table student change id id int auto_increment primary key;
mysql> insert into student values(1,'Xueqian','F',23);
mysql> insert into student values(2,'Weiliang','M',24);
mysql> select * from student;

上面已經創建好了我們所需要的MySQL數據庫和表，下面我們編寫Spark應用程序連接MySQL數據庫並且讀寫數據。

Spark支持通過JDBC方式連接到其他數據庫獲取數據生成DataFrame。

首先，請進入Linux系統（本教程統一使用hadoop用戶名登錄），打開火狐（FireFox）瀏覽器，下載一個MySQL的JDBC驅動（下載）。

JDBC 驅動下載方法一：

解壓，把 mysql-connector-java-8.0.28.jar 粘貼到 /usr/local/spark/jars 中，這樣便完成了驅動的導入

JDBC 驅動下載方法二：

在火狐瀏覽器中下載時，一般默認保存在hadoop用戶的當前工作目錄的“下載”目錄下，所以，可以打開一個終端界面，輸入下面命令查看：

cd ~
cd Downloads

就可以看到剛才下載到的MySQL的JDBC驅動程序，文件名稱為 mysql-connector-java-8.0.28.tar.gz（你下載的版本可能和這個不同）。現在，使用下面命令，把該驅動程序拷貝到 Spark 的安裝目錄下：

sudo tar -zxf ~/Downloads/mysql-connector-java-8.0.28.tar.gz -C /usr/local/spark/jars
cd /usr/local/spark/jars
ls

這時就可以在/usr/local/spark/jars目錄下看到這個驅動程序文件所在的文件夾 mysql-connector-java-8.0.28，進入這個文件夾，就可以看到驅動程序文件 mysql-connector-java-8.0.28.jar。
請輸入下面命令啟動已經安裝在Linux系統中的mysql數據庫（如果前面已經啟動了MySQL數據庫，這里就不用重復啟動了）。

service mysql start

下面，我們要啟動一個pyspark，而且啟動的時候，要附加一些參數。啟動pyspark時，必須指定mysql連接驅動jar包。

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令行中，在一行的末尾加入斜杠\，是為了告訴spark-shell，命令還沒有結束。

啟動進入pyspark以后，可以執行以下命令連接數據庫，讀取數據，並顯示：

jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable", "student").option("user", "root").option("password", "password").load()

下面我們再來看一下如何往MySQL中寫入數據。
為了看到MySQL數據庫在Spark程序執行前后發生的變化，我們先在Linux系統中新建一個終端，使用下面命令查看一下MySQL數據庫中的數據庫spark中的表student的內容：

mysql>  use spark;
Database changed
 
mysql> select * from student;
//上面命令執行后返回下面結果
+------+----------+--------+------+
| id   | name     | gender | age  |
+------+----------+--------+------+
|    1 | Xueqian  | F      |   23 |
|    2 | Weiliang | M      |   24 |
+------+----------+--------+------+

現在我們開始在pyspark中編寫程序，往spark.student表中插入兩條記錄。
下面，我們要啟動一個pyspark，而且啟動的時候，要附加一些參數。啟動pyspark時，必須指定mysql連接驅動jar包（如果你前面已經采用下面方式啟動了pyspark，就不需要重復啟動了）：

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令行中，在一行的末尾加入斜杠\，是為了告訴spark-shell，命令還沒有結束。

啟動進入pyspark以后，可以執行以下命令連接數據庫，寫入數據，程序如下（你可以把下面程序一條條拷貝到pyspark中執行）

>>> from pyspark.sql.types import Row
>>> from pyspark.sql.types import StructType
>>> from pyspark.sql.types import StructField
>>> from pyspark.sql.types import StringType
>>> from pyspark.sql.types import IntegerType
>>> studentRDD = spark.sparkContext.parallelize(["3 Rongcheng M 26","4 Guanhua M 27"]).map(lambda line : line.split(" "))
//下面要設置模式信息
>>> schema = StructType([StructField("name", StringType(), True),StructField("gender", StringType(), True),StructField("age",IntegerType(), True)])
>>> rowRDD = studentRDD.map(lambda p : Row(p[1].strip(), p[2].strip(),int(p[3])))
//建立起Row對象和模式之間的對應關系，也就是把數據和模式對應起來
>>> studentDF = spark.createDataFrame(rowRDD, schema)
>>> prop = {}
>>> prop['user'] = 'root'
>>> prop['password'] = 'password'
>>> prop['driver'] = "com.mysql.cj.jdbc.Driver"
>>> studentDF.write.jdbc("jdbc:mysql://localhost:3306/spark",'student','append', prop)

在pyspark中執行完上述程序后，我們可以看一下效果，看看MySQL數據庫中的spark.student表發生了什么變化。請在剛才的另外一個窗口的MySQL命令提示符下面繼續輸入下面命令：

mysql> select * from student;
+------+-----------+--------+------+
| id   | name      | gender | age  |
+------+-----------+--------+------+
|    1 | Xueqian   | F      |   23 |
|    2 | Weiliang  | M      |   24 |
|    3 | Rongcheng | M      |   26 |
|    4 | Guanhua   | M      |   27 |
+------+-----------+--------+------+
4 rows in set (0.00 sec)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Databricks 第3篇：pyspark.sql 通過JDBC連接數據庫使用JDBC連接數據庫（一） JDBC連接數據庫的步驟 JDBC連接數據庫的7個步驟 JDBC連接數據庫 JDBC連接數據庫 jdbc連接數據庫的步驟 JDBC連接數據庫7個步驟如何使用JDBC連接數據庫詳解JDBC連接數據庫