golang 編碼轉換 gbk轉碼utf 爬蟲中文亂碼


 

golang僅支持utf-8, 使用爬蟲時經常遇到不是utf-8編碼的文件, 如果抓取則會造成文字亂碼

 

1. 下載導入包

import "github.com/axgle/mahonia"

2. 定義函數

func ConvertToString(src string, srcCode string, tagCode string) string {

    srcCoder := mahonia.NewDecoder(srcCode)

    srcResult := srcCoder.ConvertString(src)

    tagCoder := mahonia.NewDecoder(tagCode)

    _, cdata, _ := tagCoder.Translate([]byte(srcResult), true)

    result := string(cdata)

    return result

}

3. 調用函數(抓到的gbk網頁經過轉換不再亂碼)

result = ConvertToString(html, "gbk", "utf-8")


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM