今天處理的一個文件里面中文都變成了形如”\xe4..."的十六進制編碼,其他字符正常。
大致研究了下發現這些編碼三個一組表示一個漢字,由於文本中夾雜着正常符號,我決定用正則匹配方式將三個一組的十六進制碼字符串替換為其代表的漢字。
輸入文件內容如:
#\xE5\xBE\xAE\xE6\x84\x9F\xE8\xB0\xA2##\xE6\x8A\xA5\xE5\x96\x9C\xEF\xBC\x9A\xE4\xBA\x91\xE6\xA3\x80\xE7\xB2\x89\xE4\xB8\x9D159\xE4\xB8\x87\xE4\xBA\x86#\xE5\x9C\xA8\xE8\xBF\x99\xE4\xB8\xAA\xE5\x91\xA8\xE4\xB8\x89\xE4\xB8\x8B\xE5\x8D\x885\xE6\x97\xB6\xEF\xBC\x8C\xE4\xBA\x91\xE6\xA3\x80\xE5\xBE\xAE\xE5\x8D\x9A\xE7\xB2\x89\xE4\xB8\x9D\xE8\xBF\x87159\xE4\xB8\x87\xE3\x80\x82\xE8\xBF\x87\xE5\x8E\xBB\xE7\x9A\x84\xE5\xA4\x9A\xE5\xB0\x91\xE4\xB8\xAA\xE6\x97\xA5\xE6\x97\xA5\xE5\xA4\x9C\xE5\xA4\x9C\xEF\xBC\x8C\xE8\xAE\xB8\xE8\xAE\xB8\xE5\xA4\x9A\xE5\xA4\x9A\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE4\xB8\x8D\xE8\xAE\xA4\xE8\xAF\x86\xE7\x9A\x84\xE6\x9C\x8B\xE5\x8F\x8B\xE5\x92\x8C\xE5\x81\xB6\xE4\xBB\xAC\xE4\xB8\x80\xE8\xB7\xAF\xE5\x90\x8C\xE8\xA1\x8C\xEF\xBC\x8C\xE4\xB8\xBA\xE4\xBA\x91\xE6\xA3\x80\xE5\xBE\xAE\xE5\x8D\x9A\xE5\x8F\x91\xE5\xB1\x95\xE5\x87\xBA\xE5\x8A\x9B\xE7\x8C\xAE\xE7\xAD\x96\xEF\xBC\x8C\xE9\xBC\x93\xE5\x8A\xB2\xE6\x89\x93\xE6\xB0\x94\xEF\xBC\x8C\xE4\xB8\xBA\xE4\xBA\x91\xE6\xA3\x80\xE5\xBE\xAE\xE4\xBF\xA1\xE7\x82\xB9\xE8\xB5\x9E\xEF\xBC\x81\xE5\x9C\xA8\xE5\x8F\x8C\xE5\xBE\xAE\xE5\xB9\xB3\xE5\x8F\xB0\xE4\xB8\x8A\xEF\xBC\x8C\xE5\x81\xB6\xE5\x92\x8C\xE4\xBD\xA0\xE3\x80\x81\xE5\x92\x8C\xE4\xBB\x96\xE9\x83\xBD\xE6\x98\xAF\xE6\x9C\x8B\xE5\x8F\x8B\xEF\xBC\x8C\xE6\x98\xAF\xE6\x9C\x8B\xE5\x8F\x8B\xE6\x89\x8D\xE8\x83\xBD\xE5\xB9\xB3\xE7\xAD\x89\xE5\xAF\xB9\xE7\xAD\x89\xE4\xBA\xA4\xE6\xB5\x81\xE6\xB2\x9F\xE9\x80\x9A\xE3\x80\x82\xE5\x92\xB1\xE6\xB0\xB8\xE8\xBF\x9C\xE6\x98\xAF\xE6\x9C\x8B\xE5\x8F\x8B\xEF\xBC\x8C\xE6\x84\x9F\xE8\xB0\xA2\xE6\x82\xA8\xEF\xBC\x81
import re def unicodetostr( s ): strTobytes = [] for i in s.split('\\x'): if i != '': num = int(i,16) strTobytes.append(num) a = bytes(strTobytes).decode() return a def ti(m): s = str(m.group()) a = unicodetostr(s) return a pat = re.compile(r'(\\x[0-9a-fA-F][0-9a-fA-F]){3}') with open('filename') as file: for line in file: '''for m in re.finditer(pat,line): print(m.group())''' print(re.sub(pat,ti,line))
結果為
#微感謝##報喜:雲檢粉絲159萬了#在這個周三下午5時,雲檢微博粉絲過159萬。過去的多少個日日夜夜,許許多多認識的不認識的朋友和偶們一路同行,為雲檢微博發展出力獻策,鼓勁打氣,為雲檢微信點贊!在雙微平台上,偶和你、和他都是朋友,是朋友才能平等對等交流溝通。咱永遠是朋友,感謝您!
更正:經實踐,發現上述三個編碼一組是不對的,將正則匹配改為匹配連續的編碼,即:
pat = re.compile(r'(\\x[0-9a-fA-F][0-9a-fA-F])+')