python-2：爬取某个网页（虎扑）帖子的标题做词云图

本文转载自查看原文 2019-08-08 15:28 378

关键词：requests，BeautifulSoup，jieba，wordcloud

整体思路：通过requests请求获得html，然后BeautifulSoup解析html获得一些关键数据，之后通过jieba分词对数据进行切分，去停，最后通过wordcloud画词云图

1、请求虎扑Acg区

Acg区首页的url为：https://bbs.hupu.com/acg

Acg区第二页的url为：https://bbs.hupu.com/acg-2

从这里可以得知，如果我们要请求多个网页，只需要以首页作为基础url，后面的每一页在首页的url基础上进行添加即可。引入requests库进行请求

base_url = r'https://bbs.hupu.com/acg'
add_url = ''
content_str = ''
# 尝试请求15个网页
for i in range(1, 15):
    if i != 1:
        add_url = r'-{}'.format(i)
    else:
        add_url = ''
    url = base_url + add_url
    response = requests.get(url)

2、BeautifulSoup解析

打开浏览器的控制台，观察网页源码，寻找需要获得的数据的标签。我们需要获取一个帖子的标题，通过浏览网页源码可以发现帖子的标题在一个<a></a>标签中，且class=“truetit”，通过这两个信息我们就可以通过BeautifulSoup获取一个帖子的标题了。

base_url = r'https://bbs.hupu.com/acg'
add_url = ''
content_str = ''
for i in range(1, 15):
    if i != 1:
        add_url = r'-{}'.format(i)
    else:
        add_url = ''
    url = base_url + add_url
    response = requests.get(url)
    # 引入BeautifulSoup
    soup = BeautifulSoup(response.text, "lxml")
    # 找<a></a>标签，class = ‘truetit’
    all_title = soup.find_all("a", class_="truetit")
    for title in all_title:
        content_str += title.text

需要注意的是，

all_title = soup.find_all("a", class_="truetit")

会把当前网页的所有标题都读出来，且格式是一个以<a></a>标签为元素的list，通过for遍历这个list，对每一个<a></a>，调用title.text即可以获得帖子的标题。

print一下，查看是不是获得了想要的结果：

可以看到我们已经获得了我们想要的标题，下一步就是数据处理了（jieba分词+去停）

3、jieba分词+去停用词

先写一个生成停用词表的函数

# 引入停用词表
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

再进行jieba分词，去停使用的是哈工大停用词表

# 用lcut使得分词后为一个list
s_list = jieba.lcut(content_str)
out_list = []
# 引入停用词表
stopwords = stopwordslist(r'E:\stopwords-master\哈工大停用词表.txt')
for word in s_list:
    if word not in stopwords:
        if word != '\t':
            out_list.append(word)
out_str = " ".join(out_list)

到这一步，就可以获得分词后的关键词了。下一步就是画词云图了。

4、画词云图

引入wordcloud，font_path是字体的路径，不导入的话可能只会显示一些框框，具体文字下载可以去网上找。mask是背景图片。generate()里的是string类型的数据。

alice_mask = plt.imread(r'D:\壁纸\huge.jpg')
# generate的是string类型的
word_cloud = WordCloud(font_path='msyh.ttc',mask=alice_mask,background_color='white', max_words=400, max_font_size=80).generate(out_str)
plt.figure(figsize=(15,9))
plt.imshow(word_cloud, interpolation="bilinear")
plt.axis('off')
plt.show()

5、结果展示

不引入mask参数：

引入mask参数：

今天是8月8号，最近正好是巨人最新一话发布的时候，所以巨人的讨论度很高。同时一直支撑着虎扑acg区热度的海贼王讨论度也很高，其次的关键词还有动画，动漫，龙珠，艾伦，漫画，情报等等。

6、需要改进的地方

（1）无关紧要的词太多了，需要自写停用词表进行去停。如最后结果中的“是不是”，“觉得”等，这些词都应该去掉

（2）引入mask的情况下，很多背景图使用了最后却没有展示出来。有的背景图可以，有的却不可以。

最后，感谢观看这篇博客。其中借鉴了许多网上的内容，感谢一些原作者的努力。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python虎扑爬取球员生涯数据 [python爬虫] Selenium定向爬取虎扑篮球海量精美图片 python 爬取豆瓣电影短评并wordcloud生成词云图 python 网页爬取数据生成文字云图 python爬取豆瓣影评，根据关键词生成词云图 python-虎扑爬虫 Python爬虫爬取贴吧的帖子内容 Python 爬取热词并进行分类数据分析-[云图制作+数据导入] Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云 python爬取《三国演义》小说&统计词频&生成词云图