spark 寫csv文件出現亂碼 以及寫文件讀文件總結


參考鏈接:https://blog.csdn.net/qq_56870570/article/details/118492373

result_with_newipad.write.mode("Append").csv("C:\\Users")

數據格式如下:

 

但在寫文件時最后一列address報的是亂碼

具體方式可以在寫csv下寫option添加utf-8格式

result_with_newipad.writer.mode("overwrite").option("header","ture").option("encoding","utf-8").csv("")

 

關鍵參數:

format:指定讀取csv文件。

header:是否指定頭部行作為schema。

multiLine:在單元格中可能因為字數多有換行,但是不指定這個參數,處理數據時可能會報錯。指定這個參數為true,可以將換行的單元格合並為1行。

encoding:指定編碼格式如gbk或utf-8

如下表對option里面的參數,進行介紹:

參數 解釋
header 默認是false,將第一行作為列名
encoding 默認是uft-8通過給定的編碼類型進行解碼
sep 默認是, 指定單個字符分割字段和值
inferSchema inferSchema(默認為false`):從數據自動推斷輸入模式。 *需要對數據進行一次額外的傳遞
multiLine 默認是false,解析一條記錄,該記錄可能跨越多行
inferSchema inferSchema(默認為false`):從數據自動推斷輸入模式。 *需要對數據進行一次額外的傳遞。如:option("inferSchema", true.toString) //這是自動推斷屬性列的數據類型
nullValue 默認是空的字符串,設置null值的字符串表示形式。從2.0.1開始,這適用於所有支持的類型,包括字符串類型
emptyValue 默認是空字符串,設置一個空值的字符串表示形式


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM