scrapy抓取的頁面中文會變成unicode字符串

本文轉載自查看原文 2017-03-28 23:38 3879 中文/ 編碼/ 解決問題/ scrapy/ unicode字符串

不了解編碼的，需要先補下：http://www.cnblogs.com/jiangtu/p/6245264.html

在學習&使用scrapy抓取網上信息時，發現scrapy 會將含有中文的field輸出為 unicode字符串形式。

這個原因的根本是，在python中使用json序列化時，如果使用 ensure_ascii 編碼就會出現這個問題。並且，json.dumps默認使用的也是這個編碼。

在scrapy中，JsonItemExporter 也是默認使用的 ensure_ascii 編碼:

1 class JsonItemExporter(BaseItemExporter):
2 
3     def __init__(self, file, **kwargs):
4         self._configure(kwargs, dont_fail=True)
5         self.file = file
6         kwargs.setdefault('ensure_ascii', not self.encoding) # look here 7         self.encoder = ScrapyJSONEncoder(**kwargs)
8         self.first_item = True

可以看到，在第六行，如果不傳遞值的話，就會默認使用 ensure_ascii 編碼。

所以，我們只要在 pipeline 中實例化 exporter 時，傳入編碼方式即可:

exporter = MyJsonExporter(fi, encoding='utf-8')

然后就ok了。

JSON.dumps()同理。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3將字符串unicode轉換為中文 python3 將字符串unicode轉換為中文 Spring MVC 返回類型為字符串時, 返回中文變成"?"處理將字符串變成數組split js --- 中字符串與unicode編碼 java unicode和字符串間的轉換 scrapy抓取到中文,保存到json文件為unicode,如何解決. Python基礎語法——(引號、字符串、長字符串、原始字符串、Unicode) 帶中文的字符串截取 php將獲取的數組變成字符串傳入txt文本。。。