Python編碼格式的指定方式


參考自: http://python.jobbole.com/85852/, 原文探究的更深,有興趣的可以去看看。

 

簡介來講就是使用一種特殊的注釋來聲明編碼格式,如何判斷這種格式也用了很簡單粗暴有效的辦法--正則表達式;正則表達式如下:

^[ \t\v]*#.*?coding[:=][ \t]*([-_.a-zA-Z0-9]+)

也就是說

# -*- coding:utf-8 -*-

# coding=utf-8

# -*- coding=utf-8 -*-

都可以。而第一種是Emacs推薦的寫法 - -。

而根據 ([-_.a-zA-Z0-9]+) 選出來的結果則去匹配相應的編碼方式,匹配編碼方式使用了Python自帶的codecs模塊。

 

用老方式來看看自帶的幫助文檔,help(codecs),唔,沒有任何有用的東西:

Help on module codecs:

NAME
    codecs - codecs -- Python Codec Registry, API and helpers.

FILE
    /usr/lib/python2.7/codecs.py

MODULE DOCS
    http://docs.python.org/library/codecs

DESCRIPTION
    
    Written by Marc-Andre Lemburg (mal@lemburg.com).
    
    (c) Copyright CNRI, All Rights Reserved. NO WARRANTY.

FUNCTIONS

再去鏈接那里點開看看好了,“This module defines base classes for standard Python codecs (encoders and decoders) and provides access to the internal Python codec registry, which manages the codec and error handling lookup process. ”,意思是說這個模塊就用來解碼和編碼的,提供了Python內部編碼方式的注冊,處理編碼還有錯誤信息。

那在看看里邊包含了什么:

In [5]: dir(codecs)                                                                                                                                                                               
Out[5]: 
['BOM',
 'BOM32_BE',
 'BOM32_LE',
 'BOM64_BE',
 'BOM64_LE',
 'BOM_BE',
 'BOM_LE',
 'BOM_UTF16',
 'BOM_UTF16_BE',
 'BOM_UTF16_LE',
 'BOM_UTF32',
 'BOM_UTF32_BE',
 'BOM_UTF32_LE',
 'BOM_UTF8',
 'BufferedIncrementalDecoder',
 'BufferedIncrementalEncoder',
 'Codec',
 'CodecInfo',
 'EncodedFile',

 唔,一大堆函數,不細看了。

 

PS:再次感嘆,官方文檔很贊。

然后,這種思考的方式很值得學習 - -。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM