徹底解決Python3寫爬蟲或網站時的亂碼問題


第一次寫貼子,試試水

很多玩Python3的都會遇到編碼問題,如果直接去處理未知編碼的網頁,不是Python內部編碼格式utf8會出現亂碼,下面介紹一種將未知編碼的字串轉換為utf8來避免亂碼的方法,

在很多Python編碼轉換的場景中都可以使用,

這段是自己寫的爬蟲中的一段代碼,代碼比較簡短,聰明的你一定能抓住其中的重點

#請求網頁並轉網頁編碼
def getHtmlAndDealCode(url):
    #html=requests.get(url,verify=False)
    html = s.get(url,headers=header)
    code=html.encoding
    html=html.text
    html=html.encode(code)
    html=html.decode('utf-8')
    parser = 'html.parser'
    soup = BeautifulSoup(html ,parser)
    return soup

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM