【python】or【php】網頁中字符編碼轉換，將反斜杠u \u字符串轉為unicode/utf8

本文轉載自查看原文 2020-04-16 16:51 671 python/ utf8/ 轉換/ php/ unicode/ PHP

有的時候我們用python來抓取網頁會得到類似 '\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E' 或者 '%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......' 那么應該怎么處理呢？

python

這種情況就是把 unicode直接輸出到文本中了，現在需要把它還原回去。

解決：

In [23]: s1
Out[23]: '\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E'

In [24]: s2
Out[24]: '%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......'

In [25]: print s1.decode('unicode-escape')
<from>

In [26]: print s2.replace("%", "\\").decode('unicode-escape')
<br><div cl......

另一種方式是使用json

def to_chinese(unicode_str):
    x = json.loads('{"chinese":"%s"}' % unicode_str)
    return x['chinese']

php

$str = preg_replace("/\\\\u([0-9a-f]{3,4})/i", "&#x\\1;", $str);
$str = html_entity_decode($str, null, 'UTF-8');

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C# 轉換字符串形式的” \\u1234 “ 為 “ \u1234” 的unicode編碼字符串處理 - ANSI - Unicode - UTF8 轉換 utf-8 字符串轉為Unicode編碼格式 Java將\u開頭的unicode字符串轉換為中文 c++ 轉換unicode字符串為js \u格式 [python]去掉 unicode 字符串前面的 u（轉） Python替換字符串中的反斜杠\ Python替換字符串中的反斜杠\ UTF8編碼轉為中文字符串(c#) Ansi、Unicode、UTF8字符串之間的轉換和寫入文本文件