python實現全角半角的相互轉換

本文轉載自查看原文 2014-02-18 17:05 30168 Python每日小灶/ 自然語言處理

緣起

在自然語言處理過程中，全角、半角的的不一致會導致信息抽取不一致，因此需要統一。

轉換說明

全角半角轉換說明

有規律（不含空格）：

全角字符unicode編碼從65281~65374 （十六進制 0xFF01 ~ 0xFF5E）
半角字符unicode編碼從33~126 （十六進制 0x21~ 0x7E）

特例：
空格比較特殊，全角為 12288（0x3000），半角為 32（0x20）

除空格外，全角/半角按unicode編碼排序在順序上是對應的（半角 + 0x7e= 全角）,所以可以直接通過用+-法來處理非空格數據，對空格單獨處理。

注：

1. 中文文字永遠是全角，只有英文字母、數字鍵、符號鍵才有全角半角的概念,一個字母或數字占一個漢字的位置叫全角，占半個漢字的位置叫半角。

2. 引號在中英文、全半角情況下是不同的

參考代碼

# -*- coding: cp936 -*-
def strQ2B(ustring):
    """全角轉半角"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:                              #全角空格直接轉換            
            inside_code = 32 
        elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根據關系轉化
            inside_code -= 65248

        rstring += unichr(inside_code)
    return rstring
    
def strB2Q(ustring):
    """半角轉全角"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 32:                                 #半角空格直接轉化                  
            inside_code = 12288
        elif inside_code >= 32 and inside_code <= 126:        #半角字符（除空格）根據關系轉化
            inside_code += 65248

        rstring += unichr(inside_code)
    return rstring



b = strQ2B("ｍｎ123abc博客園".decode('cp936'))                           
print b

c = strB2Q("ｍｎ123abc博客園".decode('cp936'))                           
print c

執行結果

庫函數說明

chr()函數用一個范圍在range（256）內的（就是0～255）整數作參數，返回一個對應的字符。
unichr()跟它一樣，只不過返回的是Unicode字符。

ord()函數是chr()函數（對於8位的ASCII字符串）或unichr()函數（對於Unicode對象）的配對函數，它以一個字符（長度為1的字符串）作為參數，返回對應的ASCII數值，或者Unicode數值。

案例

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 全角和半角相互轉換全角和半角相互轉換(C語言實現) JAVA 半角全角相互轉換 python: 全角半角轉換 JS對全角與半角的驗證，相互轉化以及介紹詳解全角和半角的轉換半角、全角判斷及轉換 C#下實現的半角轉與全角的互轉 C#全角和半角轉換 SQL轉換全角/半角函數