原博文出自於: http://blog.csdn.net/lw_ghy/article/details/51480358 感謝!
一、從csv文件創建DataFrame
本文將介紹如何從csv文件創建DataFrame。
如何做?
從csv文件創建DataFrame主要包括以下幾步驟:
1、在build.sbt文件里面添加spark-csv支持庫;
2、創建SparkConf對象,其中包括Spark運行所有的環境信息;
3、創建SparkContext對象,它是進入Spark的核心切入點,然后我們可以通過它創建SQLContext對象;
4、使用SQLContext對象加載CSV文件;
5、Spark內置是不支持解析CSV文件的,但是Databricks公司開發了一個類庫可以支持解析CSV文件。所以我們需要把這個依賴文件加載到依賴文件中(pom.xml或者是build.sbt)
如果你是SBT工程,請加入以下依賴到build.sbt文件中:
- libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.3.0"
如果你是Maven工程,請加入以下依賴到pom.xml文件中:
- <dependency>
- <groupid>com.databricks</groupid>
- <artifactid>spark-csv_2.10</artifactid>
- <version>1.3.0</version>
- </dependency>
6、SparkConf持有所有運行Spark程序的信息,在這個實例中,我們將以本地的方式運行這個程序,而且我們打算使用2個核(local[2]),部分代碼片段如下:
- import org.apache.spark.SparkConf
- val conf = new SparkConf().setAppName("csvDataFrame").setMaster("local[2]")
7、使用SparkConf初始化SparkContext對象,SparkContext是進入Spark的核心切入點:
- val sc = new SparkContext(conf)
在Spark中查詢數據最簡單的一種方式就是使用SQL查詢,所以我們可以定義一個SQLContext對象:
- val sqlContext=new SQLContext(sc)
8、現在我們就可以加載事先准備好的數據了:
- import com.databricks.spark.csv._
- val students=sqlContext.csvFile(filePath="StudentData.csv", useHeader=true, delimiter='|')
其中,students對象的類型是org.apache. spark.sql.DataFrame。
如何工作的
csvFile方法接收需要加載的csv文件路徑filePath,如果需要加載的csv文件有頭部信息,我們可以將useHeader設置為true,這樣就可以將第一行的信息當作列名稱來讀;delimiter指定csv文件列之間的分隔符。
除了使用csvFile函數,我們還可以使用sqlContext里面的load來加載csv文件:
- val options = Map("header" -> "true", "path" -> "E:\\StudentData.csv")
- val newStudents = sqlContext.read.options(options).format("com.databricks.spark.csv").load()
附錄
為了方便大家測試,我提供了StudentData.csv文件的部分數據集:
- id|studentName|phone|email
- 1|Burke|1-300-746-8446|ullamcorper.velit.in@ametnullaDonec.co.uk
- 2|Kamal|1-668-571-5046|pede.Suspendisse@interdumenim.edu
- 3|Olga|1-956-311-1686|Aenean.eget.metus@dictumcursusNunc.edu
- 4|Belle|1-246-894-6340|vitae.aliquet.nec@neque.co.uk
- 5|Trevor|1-300-527-4967|dapibus.id@acturpisegestas.net
- 6|Laurel|1-691-379-9921|adipiscing@consectetueripsum.edu
- 7|Sara|1-608-140-1995|Donec.nibh@enimEtiamimperdiet.edu
- 8|Kaseem|1-881-586-2689|cursus.et.magna@euismod.org
- 9|Lev|1-916-367-5608|Vivamus.nisi@ipsumdolor.com
- 10|Maya|1-271-683-2698|accumsan.convallis@ornarelectusjusto.edu
- 11|Emi|1-467-270-1337|est@nunc.com
- 12|Caleb|1-683-212-0896|Suspendisse@Quisque.edu
- 13|Florence|1-603-575-2444|sit.amet.dapibus@lacusAliquamrutrum.ca
- 14|Anika|1-856-828-7883|euismod@ligulaelit.co.uk
- 15|Tarik|1-398-171-2268|turpis@felisorci.com
- 16|Amena|1-878-250-3129|lorem.luctus.ut@scelerisque.com
- 17|Blossom|1-154-406-9596|Nunc.commodo.auctor@eratSed.co.uk
- 18|Guy|1-869-521-3230|senectus.et.netus@lectusrutrum.com
- 19|Malachi|1-608-637-2772|Proin.mi.Aliquam@estarcu.net
- 20|Edward|1-711-710-6552|lectus@aliquetlibero.co.uk
二、從Scala case class中創建DataFrame
在這篇文章中,你將學到如何從Scala case class中創建DataFrame。
如何做?
1、我們首先創建一個case class,名為Employee,並且定義id和name兩個參數,如下:
- case class Employee(id: Int, name: String)
和先前一樣,我們分別定義SparkConf、SparkContext以及SQLContext:
- val conf = new SparkConf().setAppName("colRowDataFrame"). setMaster("local[2]")
- val sc = new SparkContext(conf)
- val sqlContext = new SQLContext(sc)
2、我們可以通過很多方式來初始化Employee類,比如從關系型數據庫中獲取數據以此來定義Employee類。但是在本文為了簡單起見,我將直接定義一個Employee類的List,如下:
- val listOfEmployees = List(Employee(1, "iteblog"), Employee(2, "Jason"), Employee(3, "Abhi"))
3、我們將listOfEmployees列表傳遞給SQLContext類的createDataFrame 函數,這樣我們就可以創建出DataFrame了!然后我們可以調用DataFrame的printuSchema函數,打印出該DataFrame的模式,我們可以看出這個DataFrame主要有兩列:name和id,這正是我們定義Employee的兩個參數,並且類型都一致。
- val empFrame = sqlContext.createDataFrame(listOfEmployees)
- empFrame.printSchema
- root
- |-- id: integer (nullable = false)
- |-- name: string (nullable = true)
之所以DataFrame打印出的模式和Employee類的兩個參數一致,那是因為DataFrame內部通過反射獲取到的。
4、如果你對默認反射獲取到的模式名稱不感興趣,你可以通過withColumnRenamed函數來指定列名:
- val empFrameWithRenamedColumns = sqlContext.createDataFrame(listOfEmployees).withColumnRenamed("id", "empId")
- empFrameWithRenamedColumns.printSchema
- root
- |-- empId: integer (nullable = false)
- |-- name: string (nullable = true)
5、我們可以使用Spark支持的SQL功能來查詢相關的數據。在使用這個功能之前,我們必須先對DataFrame注冊成一張臨時表,我們可以使用registerTempTable函數實現,如下:
- empFrameWithRenamedColumns.registerTempTable("employeeTable")
6、現在我們就可以使用SQL語句來查詢DataFrame里面的數據了:
- val sortedByNameEmployees = sqlContext.sql("select * from employeeTable order by name desc")
- sortedByNameEmployees.show()
- +-----+-------+
- |empId| name|
- +-----+-------+
- | 1|iteblog|
- | 2| Jason|
- | 3| Abhi|
- +-----+-------+
它如何工作的
createDataFrame函數可以接收一切繼承scala.Product類的集合對象:
- def createDataFrame[A <: Product : TypeTag](rdd: RDD[A]): DataFrame
而case class類就是繼承了Product。我們所熟悉的TupleN類型也是繼承了scala.Product類的,所以我們也可以通過TupleN來創建DataFrame:
- val mobiles=sqlContext.createDataFrame(Seq((1,"Android"), (2, "iPhone"))) mobiles.printSchema mobiles.show()
- root
- |-- _1: integer (nullable = false)
- |-- _2: string (nullable = true)
- +---+-------+
- | _1| _2|
- +---+-------+
- | 1|Android|
- | 2| iPhone|
- +---+-------+
我們知道,Tuple2的默認兩個參數名字分別是_1和_2,同樣,我們如果對這個默認的名字不是特別喜歡,我們也是可以通過withColumnRenamed函數對默認反射的列名進行重命名。
三、操作DataFrame
在前面的文章中,我們介紹了如何創建DataFrame。本文將介紹如何操作DataFrame里面的數據和打印出DataFrame里面數據的模式
打印DataFrame里面的模式
在創建完DataFrame之后,我們一般都會查看里面數據的模式,我們可以通過printSchema函數來查看。它會打印出列的名稱和類型:
- students.printSchema
- root
- |-- id: string (nullable = true)
- |-- studentName: string (nullable = true)
- |-- phone: string (nullable = true)
- |-- email: string (nullable = true)
如果采用的是load方式參見DataFrame的,students.printSchema的輸出則如下:
- root
- |-- id|studentName|phone|email: string (nullable = true)
對DataFrame里面的數據進行采樣
打印完模式之后,我們要做的第二件事就是看看加載進DataFrame里面的數據是否正確。從新創建的DataFrame里面采樣數據的方法有很多種。我們來對其進行介紹。
最簡單的就是使用show方法,show方法有四個版本:
(1)、第一個需要我們指定采樣的行數def show(numRows: Int);
(2)、第二種不需要我們指定任何參數,這種情況下,show函數默認會加載出20行的數據def show();
(3)、第三種需要指定一個boolean值,這個值說明是否需要對超過20個字符的列進行截取def show(truncate: Boolean);
(4)、最后一種需要指定采樣的行和是否需要對列進行截斷def show(numRows: Int, truncate: Boolean)。實際上,前三個函數都是調用這個函數實現的。
Show函數和其他函數不同的地方在於其不僅會顯示需要打印的行,而且還會打印出頭信息,並且會直接在默認的輸出流打出(console)。來看看怎么使用吧:
- students.show() //打印出20行
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 11| Emi|1-467-270-1337| est@nunc.com|
- | 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|
- | 13| Florence|1-603-575-2444|sit.amet.dapibus@...|
- | 14| Anika|1-856-828-7883|euismod@ligulaeli...|
- | 15| Tarik|1-398-171-2268|turpis@felisorci.com|
- | 16| Amena|1-878-250-3129|lorem.luctus.ut@s...|
- | 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
- | 18| Guy|1-869-521-3230|senectus.et.netus...|
- | 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
- | 20| Edward|1-711-710-6552|lectus@aliquetlib...|
- +---+-----------+--------------+--------------------+
- only showing top 20 rows
- students.show(15)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 11| Emi|1-467-270-1337| est@nunc.com|
- | 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|
- | 13| Florence|1-603-575-2444|sit.amet.dapibus@...|
- | 14| Anika|1-856-828-7883|euismod@ligulaeli...|
- | 15| Tarik|1-398-171-2268|turpis@felisorci.com|
- +---+-----------+--------------+--------------------+
- only showing top 15 rows
- students.show(true)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 11| Emi|1-467-270-1337| est@nunc.com|
- | 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|
- | 13| Florence|1-603-575-2444|sit.amet.dapibus@...|
- | 14| Anika|1-856-828-7883|euismod@ligulaeli...|
- | 15| Tarik|1-398-171-2268|turpis@felisorci.com|
- | 16| Amena|1-878-250-3129|lorem.luctus.ut@s...|
- | 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
- | 18| Guy|1-869-521-3230|senectus.et.netus...|
- | 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
- | 20| Edward|1-711-710-6552|lectus@aliquetlib...|
- +---+-----------+--------------+--------------------+
- only showing top 20 rows
- students.show(false)
- +---+-----------+--------------+-----------------------------------------+
- |id |studentName|phone |email |
- +---+-----------+--------------+-----------------------------------------+
- |1 |Burke |1-300-746-8446|ullamcorper.velit.in@ametnullaDonec.co.uk|
- |2 |Kamal |1-668-571-5046|pede.Suspendisse@interdumenim.edu |
- |3 |Olga |1-956-311-1686|Aenean.eget.metus@dictumcursusNunc.edu |
- |4 |Belle |1-246-894-6340|vitae.aliquet.nec@neque.co.uk |
- |5 |Trevor |1-300-527-4967|dapibus.id@acturpisegestas.net |
- |6 |Laurel |1-691-379-9921|adipiscing@consectetueripsum.edu |
- |7 |Sara |1-608-140-1995|Donec.nibh@enimEtiamimperdiet.edu |
- |8 |Kaseem |1-881-586-2689|cursus.et.magna@euismod.org |
- |9 |Lev |1-916-367-5608|Vivamus.nisi@ipsumdolor.com |
- |10 |Maya |1-271-683-2698|accumsan.convallis@ornarelectusjusto.edu |
- |11 |Emi |1-467-270-1337|est@nunc.com |
- |12 |Caleb |1-683-212-0896|Suspendisse@Quisque.edu |
- |13 |Florence |1-603-575-2444|sit.amet.dapibus@lacusAliquamrutrum.ca |
- |14 |Anika |1-856-828-7883|euismod@ligulaelit.co.uk |
- |15 |Tarik |1-398-171-2268|turpis@felisorci.com |
- |16 |Amena |1-878-250-3129|lorem.luctus.ut@scelerisque.com |
- |17 |Blossom |1-154-406-9596|Nunc.commodo.auctor@eratSed.co.uk |
- |18 |Guy |1-869-521-3230|senectus.et.netus@lectusrutrum.com |
- |19 |Malachi |1-608-637-2772|Proin.mi.Aliquam@estarcu.net |
- |20 |Edward |1-711-710-6552|lectus@aliquetlibero.co.uk |
- +---+-----------+--------------+-----------------------------------------+
- only showing top 20 rows
- students.show(10,false)
- +---+-----------+--------------+-----------------------------------------+
- |id |studentName|phone |email |
- +---+-----------+--------------+-----------------------------------------+
- |1 |Burke |1-300-746-8446|ullamcorper.velit.in@ametnullaDonec.co.uk|
- |2 |Kamal |1-668-571-5046|pede.Suspendisse@interdumenim.edu |
- |3 |Olga |1-956-311-1686|Aenean.eget.metus@dictumcursusNunc.edu |
- |4 |Belle |1-246-894-6340|vitae.aliquet.nec@neque.co.uk |
- |5 |Trevor |1-300-527-4967|dapibus.id@acturpisegestas.net |
- |6 |Laurel |1-691-379-9921|adipiscing@consectetueripsum.edu |
- |7 |Sara |1-608-140-1995|Donec.nibh@enimEtiamimperdiet.edu |
- |8 |Kaseem |1-881-586-2689|cursus.et.magna@euismod.org |
- |9 |Lev |1-916-367-5608|Vivamus.nisi@ipsumdolor.com |
- |10 |Maya |1-271-683-2698|accumsan.convallis@ornarelectusjusto.edu |
- +---+-----------+--------------+-----------------------------------------+
- only showing top 10 rows
我們還可以使用head(n: Int)方法來采樣數據,這個函數也需要輸入一個參數標明需要采樣的行數,而且這個函數返回的是Row數組,我們需要遍歷打印。當然,我們也可以使用head()函數直接打印,這個函數只是返回數據的一行,類型也是Row。
- students.head(5).foreach(println)
- [1,Burke,1-300-746-8446,ullamcorper.velit.in@ametnullaDonec.co.uk]
- [2,Kamal,1-668-571-5046,pede.Suspendisse@interdumenim.edu]
- [3,Olga,1-956-311-1686,Aenean.eget.metus@dictumcursusNunc.edu]
- [4,Belle,1-246-894-6340,vitae.aliquet.nec@neque.co.uk]
- [5,Trevor,1-300-527-4967,dapibus.id@acturpisegestas.net]
- println(students.head())
- [1,Burke,1-300-746-8446,ullamcorper.velit.in@ametnullaDonec.co.uk]
除了show、head函數。我們還可以使用first和take函數,他們分別調用head()和head(n)
- println(students.first())
- [1,Burke,1-300-746-8446,ullamcorper.velit.in@ametnullaDonec.co.uk]
- students.take(5).foreach(println)
- [1,Burke,1-300-746-8446,ullamcorper.velit.in@ametnullaDonec.co.uk]
- [2,Kamal,1-668-571-5046,pede.Suspendisse@interdumenim.edu]
- [3,Olga,1-956-311-1686,Aenean.eget.metus@dictumcursusNunc.edu]
- [4,Belle,1-246-894-6340,vitae.aliquet.nec@neque.co.uk]
- [5,Trevor,1-300-527-4967,dapibus.id@acturpisegestas.net]
查詢DataFrame里面的列
正如你所看到的,所有的DataFrame里面的列都是有名稱的。Select函數可以幫助我們從DataFrame中選擇需要的列,並且返回一個全新的DataFrame,下面我將此進行介紹。
1、只選擇一列。假如我們只想從DataFrame中選擇email這列,因為DataFrame是不可變的(immutable),所以這個操作會返回一個新的DataFrame:
- val emailDataFrame: DataFrame = students.select("email")
現在我們有一個名叫emailDataFrame全新的DataFrame,而且其中只包含了email這列,讓我們使用show來看看是否是這樣的:
- emailDataFrame.show(3)
- +--------------------+
- | email|
- +--------------------+
- |ullamcorper.velit...|
- |pede.Suspendisse@...|
- |Aenean.eget.metus...|
- +--------------------+
- only showing top 3 rows
2、選擇多列。其實select函數支持選擇多列。
- val studentEmailDF = students.select("studentName", "email")
- studentEmailDF.show(5)
- +-----------+--------------------+
- |studentName| email|
- +-----------+--------------------+
- | Burke|ullamcorper.velit...|
- | Kamal|pede.Suspendisse@...|
- | Olga|Aenean.eget.metus...|
- | Belle|vitae.aliquet.nec...|
- | Trevor|dapibus.id@acturp...|
- +-----------+--------------------+
- only showing top 5 rows
需要主要的是,我們select列的時候,需要保證select的列是有效的,換句話說,就是必須保證select的列是printSchema打印出來的。如果列的名稱是無效的,將會出現org.apache.spark.sql.AnalysisException異常,如下:
- val studentEmailDF = students.select("studentName", "iteblog")
- studentEmailDF.show(5)
- Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'iteblog' given input columns id, studentName, phone, email;
根據條件過濾數據
現在我們已經知道如何在DataFrame中選擇需要的列,讓我們來看看如何根據條件來過濾DataFrame里面的數據。對應基於Row的數據,我們可以將DataFrame看作是普通的Scala集合,然后我們根據需要的條件進行相關的過濾,為了展示清楚,我在語句沒后面都用show函數展示過濾的結果。
- students.filter("id > 5").show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 6| Laurel|1-691-379-9921|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 11| Emi|1-467-270-1337| est@nunc.com|
- | 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|
- | 13| Florence|1-603-575-2444|sit.amet.dapibus@...|
- | 14| Anika|1-856-828-7883|euismod@ligulaeli...|
- | 15| Tarik|1-398-171-2268|turpis@felisorci.com|
- +---+-----------+--------------+--------------------+
- only showing top 10 rows
- students.filter("studentName =''").show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 21| |1-598-439-7549|consectetuer.adip...|
- | 32| |1-184-895-9602|accumsan.laoreet@...|
- | 45| |1-245-752-0481|Suspendisse.eleif...|
- | 83| |1-858-810-2204|sociis.natoque@eu...|
- | 94| |1-443-410-7878|Praesent.eu.nulla...|
- +---+-----------+--------------+--------------------+
注意看第一個過濾語句,雖然id被解析成String了,但是程序依然正確地做出了比較。我們也可以對多個條件進行過濾:
- students.filter("studentName ='' OR studentName = 'NULL'").show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 21| |1-598-439-7549|consectetuer.adip...|
- | 32| |1-184-895-9602|accumsan.laoreet@...|
- | 33| NULL|1-105-503-0141|Donec@Inmipede.co.uk|
- | 45| |1-245-752-0481|Suspendisse.eleif...|
- | 83| |1-858-810-2204|sociis.natoque@eu...|
- | 94| |1-443-410-7878|Praesent.eu.nulla...|
- +---+-----------+--------------+--------------------+
我們還可以采用類SQL的語法對數據進行過濾:
- students.filter("SUBSTR(studentName,0,1) ='M'").show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
- | 24| Marsden|1-477-629-7528|Donec.dignissim.m...|
- | 37| Maggy|1-910-887-6777|facilisi.Sed.nequ...|
- | 61| Maxine|1-422-863-3041|aliquet.molestie....|
- | 77| Maggy|1-613-147-4380| pellentesque@mi.net|
- | 97| Maxwell|1-607-205-1273|metus.In@musAenea...|
- +---+-----------+--------------+--------------------+
- only showing top 7 rows
對DataFrame里面的數據進行排序
使用sort函數我們可以對DataFrame中指定的列進行排序:
- students.sort(students("studentName").desc).show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 50| Yasir|1-282-511-4445|eget.odio.Aliquam...|
- | 52| Xena|1-527-990-8606|in.faucibus.orci@...|
- | 86| Xandra|1-677-708-5691|libero@arcuVestib...|
- | 43| Wynter|1-440-544-1851|amet.risus.Donec@...|
- | 31| Wallace|1-144-220-8159| lorem.lorem@non.net|
- | 66| Vance|1-268-680-0857|pellentesque@netu...|
- | 41| Tyrone|1-907-383-5293|non.bibendum.sed@...|
- +---+-----------+--------------+--------------------+
- only showing top 7 rows
也可以對多列進行排序:
- students.sort("studentName", "id").show(10)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 21| |1-598-439-7549|consectetuer.adip...|
- | 32| |1-184-895-9602|accumsan.laoreet@...|
- | 45| |1-245-752-0481|Suspendisse.eleif...|
- | 83| |1-858-810-2204|sociis.natoque@eu...|
- | 94| |1-443-410-7878|Praesent.eu.nulla...|
- | 91| Abel|1-530-527-7467| urna@veliteu.edu|
- | 69| Aiko|1-682-230-7013|turpis.vitae.puru...|
- | 47| Alma|1-747-382-6775| nec.enim@non.org|
- | 26| Amela|1-526-909-2605| in@vitaesodales.edu|
- | 16| Amena|1-878-250-3129|lorem.luctus.ut@s...|
- +---+-----------+--------------+--------------------+
- only showing top 10 rows
從上面的結果我們可以看出,默認是按照升序進行排序的。我們也可以將上面的語句寫成下面的:
- students.sort(students("studentName").asc, students("id").asc).show(10)
這兩個語句運行的效果是一致的。
對列進行重命名
如果我們對DataFrame中默認的列名不感興趣,我們可以在select的時候利用as對其進行重命名,下面的列子將studentName重命名為name,而email這列名字不變:
- students.select(students("studentName").as("name"), students("email")).show(10)
- +--------+--------------------+
- | name| email|
- +--------+--------------------+
- | Burke|ullamcorper.velit...|
- | Kamal|pede.Suspendisse@...|
- | Olga|Aenean.eget.metus...|
- | Belle|vitae.aliquet.nec...|
- | Trevor|dapibus.id@acturp...|
- | Laurel|adipiscing@consec...|
- | Sara|Donec.nibh@enimEt...|
- | Kaseem|cursus.et.magna@e...|
- | Lev|Vivamus.nisi@ipsu...|
- | Maya|accumsan.convalli...|
- +--------+--------------------+
- only showing top 10 rows
將DataFrame看作是關系型數據表
DataFrame的一個強大之處就是我們可以將它看作是一個關系型數據表,然后在其上運行SQL查詢語句,只要我們進行下面兩步即可實現:
(1)、將DataFrame注冊成一張名為students的表:
- students.registerTempTable("students")
(2)、然后我們在其上用標准的SQL進行查詢:
- sqlContext.sql("select * from students where studentName!='' order by email desc").show(7)
- +---+-----------+--------------+--------------------+
- | id|studentName| phone| email|
- +---+-----------+--------------+--------------------+
- | 87| Selma|1-601-330-4409|vulputate.velit@p...|
- | 96| Channing|1-984-118-7533|viverra.Donec.tem...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...|
- | 78| Finn|1-213-781-6969|vestibulum.massa@...|
- | 53| Kasper|1-155-575-9346|velit.eget@pedeCu...|
- | 63| Dylan|1-417-943-8961|vehicula.aliquet@...|
- | 35| Cadman|1-443-642-5919|ut.lacus@adipisci...|
- +---+-----------+--------------+--------------------+
- only showing top 7 rows
對兩個DataFrame進行Join操作
前面我們已經知道如何將DataFrame注冊成一張表,現在我們來看看如何使用普通的SQL對兩個DataFrame進行Join操作。
1、內聯:內聯是默認的Join操作,它僅僅返回兩個DataFrame都匹配到的結果,來看看下面的例子:
- val students1 = sqlContext.csvFile(filePath = "E:\\StudentPrep1.csv", useHeader = true, delimiter = '|')
- val students2 = sqlContext.csvFile(filePath = "E:\\StudentPrep2.csv", useHeader = true, delimiter = '|')
- val studentsJoin = students1.join(students2, students1("id") === students2("id"))
- studentsJoin.show(studentsJoin.count.toInt)
- +---+-----------+--------------+--------------------+---+------------------+--------------+--------------------+
- | id|studentName| phone| email| id| studentName| phone| email|
- +---+-----------+--------------+--------------------+---+------------------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...| 1|BurkeDifferentName|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...| 2|KamalDifferentName|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...| 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...| 4|BelleDifferentName|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...| 5| Trevor|1-300-527-4967|dapibusDifferentE...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...| 6|LaurelInvalidPhone| 000000000|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...| 10| Maya|1-271-683-2698|accumsan.convalli...|
- +---+-----------+--------------+--------------------+---+------------------+--------------+--------------------+
2、右外聯:在內連接的基礎上,還包含右表中所有不符合條件的數據行,並在其中的左表列填寫NULL ,來看看下面的實例:
- val studentsRightOuterJoin = students1.join(students2, students1("id") === students2("id"), "right_outer")
- studentsRightOuterJoin.show(studentsRightOuterJoin.count.toInt)
- +----+-----------+--------------+--------------------+---+--------------------+--------------+--------------------+
- | id|studentName| phone| email| id| studentName| phone| email|
- +----+-----------+--------------+--------------------+---+--------------------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...| 1| BurkeDifferentName|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...| 2| KamalDifferentName|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...| 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...| 4| BelleDifferentName|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...| 5| Trevor|1-300-527-4967|dapibusDifferentE...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...| 6| LaurelInvalidPhone| 000000000|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...| 10| Maya|1-271-683-2698|accumsan.convalli...|
- |null| null| null| null|999|LevUniqueToSecondRDD|1-916-367-5608|Vivamus.nisi@ipsu...|
- +----+-----------+--------------+--------------------+---+--------------------+--------------+--------------------+
3、左外聯:在內連接的基礎上,還包含左表中所有不符合條件的數據行,並在其中的右表列填寫NULL ,同樣我們來看看下面的實例:
- val studentsLeftOuterJoin = students1.join(students2, students1("id") === students2("id"), "left_outer")
- studentsLeftOuterJoin.show(studentsLeftOuterJoin.count.toInt)
- +---+-----------+--------------+--------------------+----+------------------+--------------+--------------------+
- | id|studentName| phone| email| id| studentName| phone| email|
- +---+-----------+--------------+--------------------+----+------------------+--------------+--------------------+
- | 1| Burke|1-300-746-8446|ullamcorper.velit...| 1|BurkeDifferentName|1-300-746-8446|ullamcorper.velit...|
- | 2| Kamal|1-668-571-5046|pede.Suspendisse@...| 2|KamalDifferentName|1-668-571-5046|pede.Suspendisse@...|
- | 3| Olga|1-956-311-1686|Aenean.eget.metus...| 3| Olga|1-956-311-1686|Aenean.eget.metus...|
- | 4| Belle|1-246-894-6340|vitae.aliquet.nec...| 4|BelleDifferentName|1-246-894-6340|vitae.aliquet.nec...|
- | 5| Trevor|1-300-527-4967|dapibus.id@acturp...| 5| Trevor|1-300-527-4967|dapibusDifferentE...|
- | 6| Laurel|1-691-379-9921|adipiscing@consec...| 6|LaurelInvalidPhone| 000000000|adipiscing@consec...|
- | 7| Sara|1-608-140-1995|Donec.nibh@enimEt...| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|
- | 8| Kaseem|1-881-586-2689|cursus.et.magna@e...| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|
- | 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
- | 10| Maya|1-271-683-2698|accumsan.convalli...| 10| Maya|1-271-683-2698|accumsan.convalli...|
- | 11| iteblog| 999999| iteblog@iteblog.com|null| null| null| null|
- +---+-----------+--------------+--------------------+----+------------------+--------------+--------------------+
將DataFrame保存成文件
下面我來介紹如何將DataFrame保存到一個文件里面。前面我們加載csv文件用到了load函數,與之對於的用於保存文件可以使用save函數。具體操作包括以下兩步:
1、首先創建一個map對象,用於存儲一些save函數需要用到的一些屬性。這里我將制定保存文件的存放路徑和csv的頭信息。
- val saveOptions = Map("header" -> "true", "path" -> "iteblog.csv")
為了基於學習的態度,我們從DataFrame里面選擇出studentName和email兩列,並且將studentName的列名重定義為name。
- val copyOfStudents = students.select(students("studentName").as("name"), students("email"))
2、下面我們調用save函數保存上面的DataFrame數據到iteblog.csv文件夾中
- copyOfStudents.write.format("com.databricks.spark.csv").mode(SaveMode.Overwrite).options(saveOptions).save()
mode函數可以接收的參數有Overwrite、Append、Ignore和ErrorIfExists。從名字就可以很好的理解,Overwrite代表覆蓋目錄下之前存在的數據;Append代表給指定目錄下追加數據;Ignore代表如果目錄下已經有文件,那就什么都不執行;ErrorIfExists代表如果保存目錄下存在文件,那么拋出相應的異常。
需要注意的是,上述path參數指定的是保存文件夾,並不是最后的保存文件名。