標簽【蜘蛛】 - 碼上歡樂

花費 5 ms

開發爬蟲程序首先要先得到Web頁面的HTML代碼，微軟已經為我們提供了很方便的方法，我們可以用WebClient或WebRequest、HttpWebResponse來很容易的得到網站頁面的HTML代 ...

上次已經可以得到頁面的HTML代碼了，接下來需要對HTML代碼分析，得到里面所有的鏈接和過濾掉沒用的HTML代碼，把文字內容保留下來。分析HTML代碼，通過正規表達式將鏈接和鏈接的文字內容保存下來 ...