最近由於項目需要,對簡體中文轉拼音的算法作了一些了解,然而在google找到的大多是獲得簡體中文拼音首字母的算法,好不容易讓我找到了一個sunrise.spell的類,專門用於中文轉完整拼音,覺得的確做得不錯,於是對它的算法作了一些分析,總的來說覺得還是比較簡單的,拿出來與大家分享。
我們先來學習一些准備知識。GB2312編碼對於我們中國人是再熟悉不過了,我先簡單的分析一下它的編碼規則。GB2312編碼包括符號、數字、字母、日文、制表符等,當然最主要的部分還是中文,它采用16位編碼方式,簡體中文的編碼范圍從B0A1一直到F7FE,完整編碼表可以參考http://ash.jp/code/cn/gb2312tbl.htm。如果我們把該編碼的每8位用十進制來表示就是[176 | 161]到[247 | 254],這樣對於每個中文字符,我們都可以通過兩個值來表示它,如“啊”就是[176 | 161],“我”則是[206 | 210]。
通 過上面的方法,我們就可以通過一個二維坐標對每一個中文字進行定位,從而建立一個二維表來實現中文和拼音的對應關系。當然我們會忽略一些特殊情況,比如漢 字的多音字問題。由於一個拼音可能對應多個漢字,而拼音的組合本來就不多,因此我們首先建立一個拼音音節表,代碼如下,里面列出了所有可能的組合情況,該 表是一維數組。
"a", "ai", "an", "ang", "ao", "ba", "bai", "ban", "bang", "bao",
"bei", "ben", "beng", "bi", "bian", "biao", "bie", "bin", "bing", "bo",
"bu", "ca", "cai", "can", "cang", "cao", "ce", "ceng", "cha", "chai",
"chan", "chang", "chao", "che", "chen", "cheng", "chi", "chong", "chou", "chu",
"chuai", "chuan", "chuang", "chui", "chun", "chuo", "ci", "cong", "cou", "cu",
"cuan", "cui", "cun", "cuo", "da", "dai", "dan", "dang", "dao", "de",
"deng", "di", "dian", "diao", "die", "ding", "diu", "dong", "dou", "du",
"duan", "dui", "dun", "duo", "e", "en", "er", "fa", "fan", "fang",
"fei", "fen", "feng", "fu", "fou", "ga", "gai", "gan", "gang", "gao",
"ge", "ji", "gen", "geng", "gong", "gou", "gu", "gua", "guai", "guan",
"guang", "gui", "gun", "guo", "ha", "hai", "han", "hang", "hao", "he",
"hei", "hen", "heng", "hong", "hou", "hu", "hua", "huai", "huan", "huang",
"hui", "hun", "huo", "jia", "jian", "jiang", "qiao", "jiao", "jie", "jin",
"jing", "jiong", "jiu", "ju", "juan", "jue", "jun", "ka", "kai", "kan",
"kang", "kao", "ke", "ken", "keng", "kong", "kou", "ku", "kua", "kuai",
"kuan", "kuang", "kui", "kun", "kuo", "la", "lai", "lan", "lang", "lao",
"le", "lei", "leng", "li", "lia", "lian", "liang", "liao", "lie", "lin",
"ling", "liu", "long", "lou", "lu", "luan", "lue", "lun", "luo", "ma",
"mai", "man", "mang", "mao", "me", "mei", "men", "meng", "mi", "mian",
"miao", "mie", "min", "ming", "miu", "mo", "mou", "mu", "na", "nai",
"nan", "nang", "nao", "ne", "nei", "nen", "neng", "ni", "nian", "niang",
"niao", "nie", "nin", "ning", "niu", "nong", "nu", "nuan", "nue", "yao",
"nuo", "o", "ou", "pa", "pai", "pan", "pang", "pao", "pei", "pen",
"peng", "pi", "pian", "piao", "pie", "pin", "ping", "po", "pou", "pu",
"qi", "qia", "qian", "qiang", "qie", "qin", "qing", "qiong", "qiu", "qu",
"quan", "que", "qun", "ran", "rang", "rao", "re", "ren", "reng", "ri",
"rong", "rou", "ru", "ruan", "rui", "run", "ruo", "sa", "sai", "san",
"sang", "sao", "se", "sen", "seng", "sha", "shai", "shan", "shang", "shao",
"she", "shen", "sheng", "shi", "shou", "shu", "shua", "shuai", "shuan", "shuang",
"shui", "shun", "shuo", "si", "song", "sou", "su", "suan", "sui", "sun",
"suo", "ta", "tai", "tan", "tang", "tao", "te", "teng", "ti", "tian",
"tiao", "tie", "ting", "tong", "tou", "tu", "tuan", "tui", "tun", "tuo",
"wa", "wai", "wan", "wang", "wei", "wen", "weng", "wo", "wu", "xi",
"xia", "xian", "xiang", "xiao", "xie", "xin", "xing", "xiong", "xiu", "xu",
"xuan", "xue", "xun", "ya", "yan", "yang", "ye", "yi", "yin", "ying",
"yo", "yong", "you", "yu", "yuan", "yue", "yun", "za", "zai", "zan",
"zang", "zao", "ze", "zei", "zen", "zeng", "zha", "zhai", "zhan", "zhang",
"zhao", "zhe", "zhen", "zheng", "zhi", "zhong", "zhou", "zhu", "zhua", "zhuai",
"zhuan", "zhuang", "zhui", "zhun", "zhuo", "zi", "zong", "zou", "zu", "zuan",
"zui", "zun", "zuo", "", "ei", "m", "n", "dia", "cen", "nou",
"jv", "qv", "xv", "lv", "nv"
};
在上面提到的二維表中,我們會保存音節表的索引值,來對應一個音節組合,如bao,而不是直接把音節組合保存在二維數組中,這樣可以有效減少內存消耗。因此,二位數組中的所有值都應該是索引值,如數組元素[176][161]對應的應該是a的索引值0。值得注意的是由於GB2312對應的字符量比較大,而且半角字符不需要做轉換,sunrise的類把其中的半角部分全部省略掉了,因此它的實際值是從[129 | 64]開始的,即8140開始的。
至此,我已經把原理解釋了一遍,可能不是很容易理解,下面我們來舉個例子說明一下程序流程。
首先輸入漢字“我”,首先程序初始化一個GB2312編碼對象
System.Text.Encoding encoding = System.Text.Encoding.GetEncoding("GB2312");
然后通過該對象獲得“我”的編碼數組
byte[] local = encoding.GetBytes(“我”);
local中的值應該是local[0]=206; local[1]=210
假設我們的二維數組叫_spellCodeIndex那么我們就通過_spellCodeIndex[local[0]-129,local[1]-64]獲得“我”對應的拼音音節索引值,即327
再查音節組合表,得索引327對應的是"wo",這樣就完成了中文到拼音的轉換
完整c#類可以在這里下載。
程序員的基礎教程:菜鳥程序員