C#網絡爬蟲 WebUtility使用 轉義字符 urlCode


背景:
在C#寫網絡爬蟲時候,有時候需要將html中的轉義字符進行處理,還有網址中的中文處理

一、html轉義字符處理

1.ASP.NET中的html解析
HttpUtility.HtmlDecode()方法
位於:system.web
 
2.網絡爬蟲轉換回來:

WebUtility.HtmlDecode 方法 (String)

將已經為 HTTP 傳輸進行過 HTML 編碼的字符串轉換為已解碼的字符串。

命名空間:    System.Net
程序集:  System(System.dll 中)
 

二、網址中文處理

     中文轉化GBK編碼

      System.Web.HttpUtility.UrlEncode("中國",Encoding.GetEncoding("GBK"))

   GBK編碼轉中文:

           System.Web.HttpUtility.UrlDecode("中國", System.Text.Encoding.GetEncoding("GB2312"))

本人有償定制程序開發(能力范文內,如C#爬蟲開發),歡迎聯系,QQ207708848

 參考API網址:
https://msdn.microsoft.com/zh-cn/library/1e55w41w(VS.80).aspx


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM