print(chr(random.randint(0x4e00, 0x9fbf)))獲取Unicode的編碼漢字,總共有幾萬個,但是里面有大部分都是繁體字。Unicode2.0: 16位字符集(ucs2),收錄有漢字20902個,符號6811個;優點:適用於國際化環境,可以做為字符的內部表示和存儲形式,來實現軟件的國際化、本地化;缺點:目前支持較少,與其他中文字符集不兼容。作為現代計算機系統通用編碼的統一碼(Unicode)在最新發布的5.2版中共收錄漢字(包括簡體、繁體,以及日、韓、越等地區使用的漢字)共 74,394 個。(注:微軟宋體的最新版本只有42,809個字)
CJK統一表意文字(4E00-9FFF):常用漢字
CJK統一表意文字擴展A(3400-4DBF):罕用漢字
CJK統一表意文字擴展B(20000-2A6DF):罕用漢字
CJK統一表意文字擴展C(2A700-2B73F):罕用漢字
CJK兼容表意文字(F900-FAFF):重復字符,可統一的異形字
CJK兼容表意文字補充(2F800-2FA1F):可統一的異形字
def GBK2312():
head = random.randint(0xb0, 0xf7)
body = random.randint(0xa1, 0xf9) # 在head區號為55的那一塊最后5個漢字是亂碼,為了方便縮減下范圍
val = f'{head:x}{body:x}'
get_word = bytes.fromhex(val).decode('gb2312')
return get_wordGB2312即GB2312-80,誕生於1981年,共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個字符,共7445個字符。GB2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。用區位碼表示。GB2312:16位字符集,收錄有6763個簡體漢字,682個符號;優點:適用於簡體中文環境,屬於中國國家標准,在大陸(和新加坡?)得到廣泛支持;缺點:不兼容繁體中文,其漢字集合過少。GBK:16位字符集,收錄有21003個漢字,883個符號;GBK總計23940 個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個.優點:適用於簡繁中文共存的環境,為簡體Windows所使用(代碼頁cp936),向下完全兼容gb2312;缺點:不屬於官方標准,和big5之間需要轉換。
