在某群中看到關於彈幕爬取的需求,又因為斗魚比較OP,就以這個作為切入點。
如果你想了解如何獲取彈幕,我的這個例子就可以讓你豁然開朗,對於哪些沒有開發彈幕的直播或視頻平台,就需要用抓包工具獲取請求,然后分析請求數據包內容,現在說說我的獲取步驟吧。
我通過了解到斗魚彈幕的api,根據標准協議,構建請求包,向彈幕服務器發送請求,接受請求后用正則表達式分離出現在想要的內容。
效果圖如下:
在results文件夾中打開爬取到的彈幕文件
還有生成的詞雲
我將代碼都放到了github上,下面是地址
https://github.com/bjptw/workspace