python爬蟲爬取B站視頻字幕，簡單的數據處理（pandas將字幕寫入到CSV文件中）

本文轉載自查看原文 2021-05-07 11:32 1466 python實例

上文，我們爬取到B站視頻的字幕：https://www.cnblogs.com/becks/p/14540355.html

這篇，講講怎么把爬到的字幕寫到CSV文件中，以便用於后面的分析

本文主要用到“pandas”這個庫對數據進行處理

import pandas as pd

首先需要對爬取到的內容進行數據提取

comments = [comment.text for comment in results]#從爬取的數據中取出彈幕數據，返回文本內容

執行后如下圖

然后生成字典

comments_dict = {'comments': comments}#創建字典，把字幕內容裝入字典

處理數據，使數據以表格形式展示

df = pd.DataFrame(comments_dict)#格式化字幕字典，將字幕內容已表格格式顯示

效果如下圖

把格式化后的數據，存到CSV文件中

df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕內容寫入到CSV文件中

執行后，會在腳本同目錄下生成CSV文件，文件內容如下圖

全部腳本

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

url = 'http://comment.bilibili.com/309778762.xml'
html = requests.get(url)
html.encoding='utf8'

soup = BeautifulSoup(html.text,'lxml')
results = soup.find_all('d')

comments = [comment.text for comment in results]#從爬取的數據中取出彈幕數據，返回文本內容
comments_dict = {'comments': comments}#創建字典，把字幕內容裝入字典
df = pd.DataFrame(comments_dict)#格式化字幕字典，將字幕內容已表格格式顯示
df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕內容寫入到CSV文件中

格式化數據“pd.DataFrame”函數的用法可以參考，https://www.cnblogs.com/andrew-address/p/13040035.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲（BeautifulSoup）爬取B站視頻字幕 python爬蟲爬取B站視頻字幕，詞頻統計，使用pyecharts畫詞雲(wordcloud) python 爬蟲爬取B站api接口返回的json數據，分頁存儲csv以及下載圖片 Python爬蟲一爬取B站小視頻源碼用Python處理字幕文件 Python爬取b站視頻 Python 自動爬取B站視頻 Python如何實現爬取B站視頻一個簡單的爬取b站up下所有視頻的所有評論信息的爬蟲批量將B站bcc格式的視頻字幕轉換為srt格式的視頻字幕