R語言讀寫中文編碼方式

本文轉載自查看原文 2016-12-22 16:35 19907 R/ r

最近遇到一個很頭疼的事，就是 R語言讀寫中文編碼方式。在網上找到了一篇博文，謝謝博主的精彩分享，讓我很快解決了問題，在此也分享一下

R語言讀寫數據的方法很多，這里主要是我在使用read.csv/read.table和write.csv/write.table時遇到的一些中文格式編碼的問題。常見的中文編碼方式兩種：GBK(GB2312)和UTF-8。

Windows系統下：

read.csv()和read.table()方法不指定文件格式時，默認讀取的文件是GBK格式。Rstudio里面有設置默認文本編碼方式，但是修改前后讀入中文數據情況都一樣。

Linux（我使用的Redhat）系統下：

系統指定中文編碼方式是UTF-8，所以read.csv()和read.table()都要求UTF-8。

如下兩個文件，分別是UTF-8格式和GBK格式，首先用read.csv讀取，可以看到不指定編碼方式時，讀取UTF-8格式文件是亂碼。用encoding指定讀取的文件編碼方式為UTF-8后，正常。這樣看起來read.csv()方法讀取UTF-8好像可行？

那么我們再來看一個例子，相同的數據，只是最后多增加一列中文。同樣，上面三種方式，讀取UTF-8的時候問題直接變成了讀取出錯，“列的數目比列的名字要多”，並且制定編碼方式為UTF-8也無法拯救你了。為什么會這樣呢？

提示意思是，列名少了，那就去掉表頭header=F就行了，結果如下，還是亂碼，並且原本四列數據讀進來后變成了七列。雖然指定encoding為UTF-8后沒有了亂碼，但是讀取時行之間會錯亂。但是用fileEncoding就沒有問題了！

上述，總結而言，使用read.csv()時，有中文的話，請務必保證你的文件是GBK編碼格式的。或者用fileEncoding來指定編碼格式，不要用encoding！

跟read.csv一樣的問題，並且，這里header=F也可行。read.table比read.csv更嚴格，要求行都有相同的長度，不會自動填充NA。

write.csv/write.table方法可以使用，可以使用fileEncoding來指定輸出文件的編碼方式，如下，只要你的系統能識別這種方式就OK。

其實啰啰嗦嗦了這么久，總結而言就一句話read.csv/read.table盡量讀入文件GBK格式（Win下），或者UTF-8格式（Linux下），不是的話，用fileEncoding指定編碼格式，不要用encoding。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於jupyter notebook讀寫中文編碼的問題 python 中文編碼(一) URL中文編碼問題 Python中文編碼問題 Java中文編碼小結難道.NET Core到R2連中文編碼都不支持嗎？ C語言基礎之中文編碼格式GB2312（4） django項目mysql中文編碼問題 C# URL 中文編碼與解碼 HttpClient POST的中文編碼問題