Python3紅樓夢人名出現次數統計分析

本文轉載自查看原文 2018-06-19 20:49 6841 Python

一、程序說明

本程序流程是讀取紅樓夢txt文件----使用jieba進行分詞----借助Counter讀取各人名出現次數並排序----使用matplotlib將結果可視化

這里的統計除了將“熙鳳”出現的次數合並到“鳳姐”中外並沒有其他處理，但應該也大體能反映人物提及次數情況

二、執行結果展示

條形圖：

餅狀圖：

三、程序源代碼

import jieba
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np


class HlmNameCount():
    # 此函數用於繪制條形圖
    def showNameBar(self,name_list_sort,name_list_count):
        # x代表條形數量
        x = np.arange(len(name_list_sort))
        # 處理中文亂碼
        plt.rcParams['font.sans-serif'] = ['SimHei']
        # 繪制條形圖，bars相當於句柄
        bars = plt.bar(x,name_list_count)
        # 給各條形打上標簽
        plt.xticks(x,name_list_sort)
        # 顯示各條形具體數量
        i = 0
        for bar in bars:
            plt.text((bar.get_x() + bar.get_width() / 2), bar.get_height(), '%d' % name_list_count[i], ha='center', va='bottom')
            i += 1
        # 顯示圖形
        plt.show()

    # 此函數用於繪制餅狀圖
    def showNamePie(self, name_list_sort, name_list_fracs):
        # 處理中文亂碼
        plt.rcParams['font.sans-serif'] = ['SimHei']
        # 繪制餅狀圖
        plt.pie(name_list_fracs, labels=name_list_sort, autopct='%1.2f%%', shadow=True)
        # 顯示圖形
        plt.show()

    def getNameTimesSort(self,name_list,txt_path):
        # 將所有人名臨時添加到jieba所用字典，以使jieba能識別所有人名
        for k in name_list:
            jieba.add_word(k)
        # 打開並讀取txt文件
        file_obj = open(txt_path, 'rb').read()
        # jieba分詞
        jieba_cut = jieba.cut(file_obj)
        # Counter重新組裝以方便讀取
        book_counter = Counter(jieba_cut)
        # 人名列表，因為要處理鳳姐所以不直接用name_list
        name_dict ={}
        # 人名出現的總次數，用於后邊計算百分比
        name_total_count = 0
        for k in name_list:
            if k == '熙鳳':
                # 將熙鳳出現的次數合並到鳳姐
                name_dict['鳳姐'] += book_counter[k]
            else:
                name_dict[k] = book_counter[k]
            name_total_count += book_counter[k]
        # Counter重新組裝以使用most_common排序
        name_counter = Counter(name_dict)
        # 按出現次數排序后的人名列表
        name_list_sort = []
        # 按出現次數排序后的人名百分比列表
        name_list_fracs = []
        # 按出現次數排序后的人名次數列表
        name_list_count = []
        for k,v in name_counter.most_common():
            name_list_sort.append(k)
            name_list_fracs.append(round(v/name_total_count,2)*100)
            name_list_count.append(v)
            # print(k+':'+str(v))
        # 繪制條形圖
        self.showNameBar(name_list_sort, name_list_count)
        # 繪制餅狀圖
        self.showNamePie(name_list_sort,name_list_fracs)
        

if __name__ == '__main__':
    # 參與統計的人名列表，可修改成自己想要的列表
    name_list = ['寶玉', '黛玉', '寶釵', '元春', '探春', '湘雲', '妙玉', '迎春', '惜春', '鳳姐', '熙鳳', '巧姐', '李紈', '可卿', '賈母', '賈珍', '賈蓉', '賈赦', '賈政', '王夫人', '賈璉', '薛蟠', '香菱', '寶琴', '襲人', '晴雯', '平兒', '紫鵑', '鶯兒']
    # 紅樓夢txt文件所在路徑，修改成自己文件所在路徑
    txt_path = 'F:/PycharmProjects/tutorial/hlm.txt'
    hnc = HlmNameCount()
    hnc.getNameTimesSort(name_list,txt_path)

參考：

https://github.com/fxsjy/jieba

https://docs.python.org/3/library/collections.html#collections.Counter

https://matplotlib.org/tutorials/introductory/sample_plots.html#sphx-glr-tutorials-introductory-sample-plots-py

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 紅樓夢作者解析紅樓夢——前五回 Nginx 流量統計分析專業統計分析軟件描述統計分析地統計分析筆記——探索數據 ORACLE統計分析函數 Python統計字符串中出現次數最多的人名 ping包測試內容寫入文件，並使用python對相應的結果進行統計分析 [原創博文] 用Python做統計分析（Scipy.stats的文檔）