今天使用bs4 寫爬蟲(爬取baidu搜索url),遇到Unicode編碼無法轉正常字體,經過反復排查,發現python2.x版本中的print方法打印書寫格式問題:
def get_maximum_pages(soup_content,link_re): div=soup_content.find('div',id='wrapper').find('div',id='wrapper_wrapper').find('div',id='container').find('div',id='page') a_list = div.find_all('a') next_page = a_list[len(a_list)-1] next_text = next_page.get_text()print("next_text:",next_page_text) //此處無論怎么調試,都一直顯示('next_text:', u'\u4e0b\u4e00\u9875>')
1、python2.x 中正確寫法:
print "next_text:",next_page_text
或者
print("next_text:"+next_page_text )
錯誤格式:print("next_text:",next_page_text)
