大家經常都在網易雲上聽音樂,而且上面還有很多感人的故事,也有很多人在上面發表評論,關於網易雲音樂的評論我早就想爬了,之前是因為太忙沒時間爬,這兩天的時間閑了,這里我分享給大家用最簡單的方法實現網易雲音樂評論的爬取,我們就以毛不易的《消愁》為例來介紹一下
數據抓取首先,我們用電腦打開網易雲音樂這條視頻的鏈接。找到最新評論,目標就是把這些評論全部取出來。接着發現每點擊“下一頁”,網站的url並沒有任何變化,整個爬蟲程序我們使用的是python來實現,簡單的示例如下:
#! -*- encoding:utf-8 -*- import requests import random # 要訪問的目標頁面 targetUrl = "http://httpbin.org/ip" # 要訪問的目標HTTPS頁面 # targetUrl = "https://httpbin.org/ip" # 代理服務器(產品官網 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗證信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 設置 http和https訪問都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 設置IP切換頭 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
這是最簡單的爬蟲的實現方式,主要是加了代理一起,有了代理才能在獲取數據的時候暢通無阻啊,所以大家有需要的可以試試這家代理www.16yun.cn。大家以后要爬蟲歌曲的評論話只要運行這個爬蟲程序就差不多就可以實現啦。