用golang写爬虫

本文转载自查看原文 2019-12-30 16:36 227

我是在windows系统上安装的go，使用goland编辑。

Hello world：

package main

import "fmt"

func main() {
	fmt.Println("Hello, world")
}

ctrl+alt+f10运行

下载网页

这里先从Golang原生http库开始，直接使用 net/http 包内的函数请求

import "net/http"
...
resp, err := http.Get("http://wwww.baidu.com")

所以代码可以这样写

package main import ( "fmt" "io/ioutil" "net/http" ) func main() { fmt.Println("Hello, world") resp, err := http.Get("http://www.baidu.com/") if err != nil { fmt.Println("http get error", err) return } body, err := ioutil.ReadAll(resp.Body) if err != nil { fmt.Println("read error", err) return } fmt.Println(string(body)) }

Golang的错误处理就是这样的，习惯就好。

这里更好的做法是把下载方法封装为函数。

package main import ( "fmt" "io/ioutil" "net/http" ) func main() { fmt.Println("Hello, world") url := "http://www.baidu.com/" download(url) } func download(urlstring) { client := &http.Client{} req, _ := http.NewRequest("GET", url, nil) // 自定义Header req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)") resp, err := client.Do(req) if err != nil { fmt.Println("http get error", err) return } //函数结束后关闭相关链接 defer resp.Body.Close() body, err := ioutil.ReadAll(resp.Body) if err != nil { fmt.Println("read error", err) return } fmt.Println(string(body)) }

解析网页

go常见的解析器xpath、 jquery 、正则都有，直接搜索即可，我这里偷懒，直接用别人写好的轮子 collectlinks ，可以提取网页中所有的链接，下载方法 go get -u github.com/jackdanger/collectlinks

package main import ( "fmt" "github.com/jackdanger/collectlinks" "net/http" ) func main() { fmt.Println("Hello, world") url := "http://www.baidu.com/" download(url) } func download(urlstring) { client := &http.Client{} req, _ := http.NewRequest("GET", url, nil) // 自定义Header req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)") resp, err := client.Do(req) if err != nil { fmt.Println("http get error", err) return } //函数结束后关闭相关链接 defer resp.Body.Close() links := collectlinks.All(resp.Body) for _, link := range links { fmt.Println("parse url", link) } }

并发

Golang使用关键字 go 即可开启一个新的 go 程，也叫 goroutine ，使用 go 语句开启一个新的 goroutine 之后，go 语句之后的函数调用将在新的 goroutine 中执行，而不会阻塞当前的程序执行。所以使用Golang可以很容易写成异步IO。

package main import ( "fmt" "github.com/jackdanger/collectlinks" "net/http" ) func main() { fmt.Println("Hello, world") url := "http://www.baidu.com/" queue := make(chan string) go func() { queue <- url }() for uri := range queue { download(uri, queue) } } func download(urlstring, queuechan string) { client := &http.Client{} req, _ := http.NewRequest("GET", url, nil) // 自定义Header req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)") resp, err := client.Do(req) if err != nil { fmt.Println("http get error", err) return } //函数结束后关闭相关链接 defer resp.Body.Close() links := collectlinks.All(resp.Body) for _, link := range links { fmt.Println("parse url", link) go func() { queue <- link }() } }

现在的流程是main有一个for循环读取来自名为queue的通道，download下载网页和链接解析，将发现的链接放入main使用的同一队列中，并再开启一个新的goroutine去抓取形成无限循环。

这里对于新手来说真的不好理解，涉及到Golang的两个比较重要的东西：goroutine和channels，这个我也不大懂，这里也不多讲了，以后有机会细说。

官方：A goroutine is a lightweight thread managed by the Go runtime.翻译过来就是：Goroutine是由Go运行时管理的轻量级线程。channels是连接并发goroutine的管道，可以理解为goroutine通信的管道。可以将值从一个goroutine发送到通道，并将这些值接收到另一个goroutine中。对这部分有兴趣的可以去看文档。

好了，到这里爬虫基本上已经完成了，但是还有两个问题：去重、链接是否有效。

链接转为绝对路径

package main import ( "fmt" "github.com/jackdanger/collectlinks" "net/http" "net/url" ) func main() { fmt.Println("Hello, world") url := "http://www.baidu.com/" queue := make(chan string) go func() { queue <- url }() for uri := range queue { download(uri, queue) } } func download(urlstring, queuechan string) { client := &http.Client{} req, _ := http.NewRequest("GET", url, nil) // 自定义Header req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)") resp, err := client.Do(req) if err != nil { fmt.Println("http get error", err) return } //函数结束后关闭相关链接 defer resp.Body.Close() links := collectlinks.All(resp.Body) for _, link := range links { absolute := urlJoin(link, url) if url != " " { fmt.Println("parse url", absolute) go func() { queue <- absolute }() } } } func urlJoin(href, basestring)string { uri, err := url.Parse(href) if err != nil { return " " } baseUrl, err := url.Parse(base) if err != nil { return " " } return baseUrl.ResolveReference(uri).String() }

这里新写了一个 urlJoin 函数，功能和 Python 中的 urllib.parse.urljoin 一样。

去重

我们维护一个map用来记录，那些是已经访问过的。

package main import ( "fmt" "github.com/jackdanger/collectlinks" "net/http" "net/url" ) var visited = make(map[string]bool) func main() { fmt.Println("Hello, world") url := "http://www.baidu.com/" queue := make(chan string) go func() { queue <- url }() for uri := range queue { download(uri, queue) } } func download(urlstring, queuechan string) { visited[url] = true client := &http.Client{} req, _ := http.NewRequest("GET", url, nil) // 自定义Header req.Header.Set("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)") resp, err := client.Do(req) if err != nil { fmt.Println("http get error", err) return } //函数结束后关闭相关链接 defer resp.Body.Close() links := collectlinks.All(resp.Body) for _, link := range links { absolute := urlJoin(link, url) if url != " " { if !visited[absolute] { fmt.Println("parse url", absolute) go func() { queue <- absolute }() } } } } func urlJoin(href, basestring)string { uri, err := url.Parse(href) if err != nil { return " " } baseUrl, err := url.Parse(base) if err != nil { return " " } return baseUrl.ResolveReference(uri).String() }

好了大功告成，运行程序，会像一张网铺开一直不停的抓下去。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 之前写的关于chromedp的文章被别人转到CSDN，很受鼓励，再来一篇golang爬虫实例 WebMagic写的网络爬虫爬虫 1、用Anaconda的 jupyter notebook 写爬虫写爬虫时如何判断页数老蜗牛写采集：网络爬虫（二）笔记之《用python写网络爬虫》纯golang爬虫实战－（五）－登录并带cookie访问 Golang 网络爬虫框架gocolly/colly 三【GoLang】GoLang map 非线程安全 & 并发度写优化如何用Golang写msf插件模块