一、寫在前面

這個標題是借用的路人甲大佬的一篇文章的標題（百度一下，坑死你），而且這次的爬蟲也是看了這篇文章后才寫出來的，感興趣的可以先看下這篇文章。

前段時間有篇文章《搜索引擎百度已死》引起了很多討論，而百度對此的回復是：百家號的內容在百度搜索結果中不超過10%。但是這個10%是第一頁的10%還是所有數據的10%，我們不得而知，但是由於很多人都只會看第一頁的內容，而如果這第一頁里有十分之一的內容都來自於百家號，那搜索體驗恐怕不怎么好吧？然后我這次寫的爬蟲就是把百度上面的熱搜事件都搜索一下，然后把搜索結果的第一頁上的標題鏈接提取出來，最后對這些鏈接進行一些簡單的分析，看看百家號的內容占比能有多少。

二、具體步驟

1.頁面分析

首先打開網頁查看百度的熱點事件，頁面如下：

這次我主要對今日熱點、娛樂熱點、體育熱點進行了爬取，每個熱點下面有50條熱點事件，然后對每個事件進行搜索，比如第一條--馬雲的福字：

可以看到搜索結果的第一頁上有很多標題，然后對這些標題的鏈接進行爬取，再保存到一個txt文件里，最后對這些數據進行分析。

2.主要代碼

（1）獲取真實鏈接

這些搜索結果頁面上的鏈接都是經過加密的，如下圖：

所以我們爬取得到的鏈接都是http://www.baidu.com/link?url=VfA2jxmqJdYt1U-G0wHjWIXglVEi-WCxpa8aaMCeOzkqK-c5CgYngPiJT6_-kmWE3ePTHCpgYlX5oq9SQDJgEukKCY19o26JlS1pEIgnlupbw0Ss9Ro3gQjYVuJljdxyBPfiDUJhM9ODV_0mKnrUhESJ95Az1OnB6mMScmCXiUi這種，但是我們點進去之后就能得到真實的鏈接https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=%E9%A9%AC%E4%BA%91%E7%9A%84%E7%A6%8F%E5%AD%97&cl=2&origin=ps，那我們要怎么得到真實的鏈接呢？相關代碼如下：

1 def get_real_url(self, fake_url):
2     # 獲取真實的鏈接
3     try:
4         res = requests.get(fake_url, headers=self.headers)
5         real_url = res.url
6     except Exception as e:
7         print(e)

（2）數據處理

這里我總共爬取了1051條鏈接，如下圖：

但是這樣的數據是明顯沒有辦法進行分析的，所以需要進行一下處理，比如將https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc變成baijiahao.baidu，相關代碼如下：

1 href = "https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc"
2 match = re.match("(http[s]?://.+?[com,cn,net]/)", href) 
3 href = match.group()
4 href = href.replace('cn', 'com').replace('net', 'com')
5 href = href[href.index(':') + 3:].rstrip('.com/')
6 print(href)
7 # baijiahao.baidu

（3）數據分析

這里主要使用了matplotlib繪圖幫助我們分析數據。首先需要統計出各個網站出現的次數，然后進行一個排序，得到排名前十的網站，結果如下（前面是網站，后面是出現次數）：

https://baijiahao.baidu.com/ 188
https://www.baidu.com/ 114
http://www.sohu.com/ 60
https://news.china.com/ 29
http://www.guangyuanol.cn/ 27
http://image.baidu.com/ 24
http://3g.163.com/ 20
https://sports.qq.com/ 19
https://www.iqiyi.com/ 17
https://baike.baidu.com/ 17

可以看到百家號出現的次數是最多的。然后進行繪圖分析，這里主要是繪圖的代碼，因為使用的是百分數，所以在繪圖的時候會稍微麻煩一點：

 1 def plot(self, index_list, value_list):
 2    b = self.ax.barh(range(len(index_list)), value_list, color='blue', height=0.8)
 3    # 添加數據標簽
 4     for rect in b:
 5         w = rect.get_width()
 6         self.ax.text(w, rect.get_y() + rect.get_height() / 2, '{}%'.format(w),
 7                      ha='left', va='center')
 8     # 設置Y軸刻度線標簽
 9     self.ax.set_yticks(range(len(index_list)))
10     self.ax.set_yticklabels(index_list)
11     # 設置X軸刻度線
12     lst = ["{}%".format(i) for i in range(0, 20, 2)]
13     self.ax.set_xticklabels(lst)
14 
15     plt.subplots_adjust(left=0.25)
16     plt.xlabel("占比")
17     plt.ylabel("網站")
18     plt.rcParams['font.sans-serif'] = ['SimHei']
19     plt.savefig("bjh.jpg")
20     print("已保存為bjh.jpg！")

三、運行結果

由於每個事件的搜索結果都是不同的，所以在解析網頁的時候可能會出錯，然后就是請求頻率太高了會被ban掉，而且有時候UA會被識別出來然后就被ban掉了，運行情況如下圖：

最后看一下繪制出來的圖片：

可以看到百家號的內容占比達到了17%，而排在第二的也是百度自家的產品，內容占比也達到了10%。當然了，由於搜索的都是百度上的熱搜事件，所以得到的結果百度自家的內容會多一點，但是光百家號的內容就占了17%，是不是也太多了點呢？

完整代碼已上傳到GitHub！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 學習Python3 試了一下百度OCR和騰訊OCR 閑聊一下百度的Unit 爬蟲天坑系列-百度指數爬蟲 python3百度指數抓取 1、Python request（爬蟲-百度翻譯） python爬蟲百度翻譯 Python3爬蟲利用百度地圖api得到城市經緯度 Python爬蟲-百度模擬登錄（二） Python爬蟲-百度貼吧 Python3爬蟲利用百度地圖api得到城市經緯度