标签【蜘蛛】 - 码上欢乐

花费 5 ms

开发爬虫程序首先要先得到Web页面的HTML代码，微软已经为我们提供了很方便的方法，我们可以用WebClient或WebRequest、HttpWebResponse来很容易的得到网站页面的HTML代 ...

上次已经可以得到页面的HTML代码了，接下来需要对HTML代码分析，得到里面所有的链接和过滤掉没用的HTML代码，把文字内容保留下来。分析HTML代码，通过正规表达式将链接和链接的文字内容保存下来 ...