利用pandas中的to_csv模塊保存數據,打開csv文件時出現亂碼的解決方法


最近嘗試獲取IEEE上的論文,實現批量獲取論文的題目、作者、出版雜志、引用次數等內容,並將檢索的數據保存為csv文件。在這個過程中,發現使用to_csv默認的"utf-8"編碼類型進行讀寫文件的時候,部分作者的名字出現亂碼情況,如下圖所示。

“Hana Dobšíček Trefná” 顯示成為了“Hana Dob擰鉚膷ek Trefn謾”,出現這樣的情況,是由於編碼的問題所引起的,因此主要是在encoding上找解決方案,從網上查到unicode編碼有utf-8、utf-16和utf-32三種形式。

  • 情況一:設置encoding="utf-16",“Hana Dobšíček Trefná”顯示正常,沒能正常分列,並且使用read_csv可以正常讀取。

  • 情況二:設置encoding="utf-32",“Hana Dobšíček Trefná”顯示正常,沒能正常分列,使用read_csv無法正常讀取。

 

  • 情況三:設置encoding="utf-16", sep="\t",“Hana Dobšíček Trefná”顯示正常,能正常分列,使用read_csv可以正常讀取。

  • 情況四:設置encoding="utf-32", sep="\t",“Hana Dobšíček Trefná”顯示正常,能正常分列,使用read_csv無法正常讀取。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM