如何查看字符編碼?


導入chardet模塊,可以用命令安裝

pip install chardet

 

希望通過一個案例能讓你快速入門

import chardet

UTF8_TEXT="你好,世界".encode('utf-8')
SJIS_TEXT="你好,世界".encode('GB2312')
GBK_TEXT="你好,世界".encode('GBK')
'''
輸出結果:
{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
{'encoding': None, 'confidence': 0.0, 'language': None}
{'encoding': None, 'confidence': 0.0, 'language': None}
這是一個比較糟糕的問題,第一個有結果,另外兩個沒有結果,百度也不好百度,自己嘗試了一下,發現原來內容不能不能輸入一樣的,改了皆可以輸出結果了。

'''
'''
UTF8_TEXT="你好,世界".encode('utf-8')
SJIS_TEXT="哈哈哈".encode('GB2312')
GBK_TEXT="中國加油!".encode('GBK')
輸出結果:
{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}
{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
{'encoding': 'KOI8-R', 'confidence': 0.40958385256619645, 'language': 'Russian'}

'''


def main():
    print(chardet.detect(UTF8_TEXT))
    print(chardet.detect(SJIS_TEXT))
    print(chardet.detect(GBK_TEXT))

if __name__ == '__main__':
    main()

'''
detect函數返回值是一個字典,得到confidence (可信度)與encoding (字符
編碼)這一鍵值對。其中的可信度數値在0-1之向,越是接近1表明可以信頼的程
度越高。
'''

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM