最近嘗試獲取IEEE上的論文,實現批量獲取論文的題目、作者、出版雜志、引用次數等內容,並將檢索的數據保存為csv文件。在這個過程中,發現使用to_csv默認的"utf-8"編碼類型進行讀寫文件的時候,部分作者的名字出現亂碼情況,如下圖所示。
“Hana Dobšíček Trefná” 顯示成為了“Hana Dob擰鉚膷ek Trefn謾”,出現這樣的情況,是由於編碼的問題所引起的,因此主要是在encoding上找解決方案,從網上查到unicode編碼有utf-8、utf-16和utf-32三種形式。
- 情況一:設置encoding="utf-16",“Hana Dobšíček Trefná”顯示正常,沒能正常分列,並且使用read_csv可以正常讀取。
- 情況二:設置encoding="utf-32",“Hana Dobšíček Trefná”顯示正常,沒能正常分列,使用read_csv無法正常讀取。
- 情況三:設置encoding="utf-16", sep="\t",“Hana Dobšíček Trefná”顯示正常,能正常分列,使用read_csv可以正常讀取。
- 情況四:設置encoding="utf-32", sep="\t",“Hana Dobšíček Trefná”顯示正常,能正常分列,使用read_csv無法正常讀取。