Spark SQL是用於結構化數據處理的Spark模塊,可以通過sql、dataset、dataframe與spark sql進行交互。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html
在spark 2.0以前,多使用SqlContext進行開發,2.0以后,推薦使用SparkSession,本文將以SqlContext寫一個簡單的例子,在后面的博文中,會寫spark session相關的博文,並會詳細說明二者之間的差別。
接着上一篇的工程,繼續開發學習。
1.准備
1.1添加maven依賴
在pom文件中添加如下依賴:
1.2准備數據
新建一個txt文件,加入以下數據
如果有hdfs集群,可以將數據push到hdfs集群
2.編碼
新建scala object SparkSqlDemo1,加入如下代碼:
運行結果:
完整代碼已上傳至github https://github.com/wuyueming985/sparkdemos
感謝閱讀!