前言
利用Python簡單品讀/分析一下小說~
不想看過程的請直接下拉到最后看結果~
開發工具
Python版本: 3.6.4
相關模塊:
gensim模塊;
jieba模塊;
scipy模塊;
snownlp模塊;
matplotlib模塊;
numpy模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
額外說明:
pip下載速度過慢:
臨時/永久換源~~~(百度上就有很多教程T_T)
pip安裝失敗:
到類似https://www.lfd.uci.edu/~gohlke/pythonlibs/這樣的網站下載whl文件安裝。
主要思路
(1)小說主要人物分析
統計每個角色在小說中出現的次數,並假設出現的次數越多,人物在小說中的地位越高。
(2)小說人物關系分析
利用gensim生成一個詞向量模型來分析人物關系。
T_T這個模型是Google在2013年開源出來的,具體實現細節還沒來得及看,算不上深度學習,只是淺層的神經網絡~~~
(3)小說情感分析
主要利用了snownlp庫。
具體實現過程詳見源代碼。
補充說明
分析小說之前需要先到相關網站下載小說的文本文件並新建一個含有小說中所有人物名的文本文件。
修改源代碼(analysis.py)中的:
if name == 'main':(98行)
下面的小說文件路徑后在cmd窗口中運行即可。
Python品紅樓
T_T首先讓我們看看這本我看了20年也只看了前3頁的中國古典四大名著之首!!!
主要人物(Top10):
前面幾個名字還是挺耳熟的???
人物關系圖:
也不曉得靠譜不,聚類得到的圖~~~
T_T隨手還得出了這樣的結論(逃):
小說整體的情感基調(消極or積極?):
以0.5為界,左邊代表消極,右邊代表積極~~~
這也太極端的嘛T_T
Python品天龍八部
只看過電視劇~~~
主要人物(Top10):
可能有些地方是喬峰,有些地方是蕭峰的原因吧,畢竟我覺得喬峰才是主角呀!
人物關系圖:
以及隨手得出的結論:
啊毀三觀啊~~~
小說整體的情感基調(消極or積極?):
文章到這里就結束了,感謝你的觀看,關注我每天分享Python案例系列,下篇文章分享遺傳算法擬合圖像。
為了感謝讀者們,我想把我最近收藏的一些編程干貨分享給大家,回饋每一個讀者,希望能幫到你們。
干貨主要有:
① 2000多本Python電子書(主流和經典的書籍應該都有了)
② Python標准庫資料(最全中文版)
③ 項目源碼(四五十個有趣且經典的練手項目及源碼)
④ Python基礎入門、爬蟲、web開發、大數據分析方面的視頻(適合小白學習)
⑤ Python學習路線圖(告別不入流的學習)
前言
利用Python簡單品讀/分析一下小說~
不想看過程的請直接下拉到最后看結果~
開發工具
Python版本:3.6.4
相關模塊:
gensim模塊;
jieba模塊;
scipy模塊;
snownlp模塊;
matplotlib模塊;
numpy模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
額外說明:
pip下載速度過慢:
臨時/永久換源~~~(百度上就有很多教程T_T)
pip安裝失敗:
到類似https://www.lfd.uci.edu/~gohlke/pythonlibs/這樣的網站下載whl文件安裝。
主要思路
(1)小說主要人物分析
統計每個角色在小說中出現的次數,並假設出現的次數越多,人物在小說中的地位越高。
(2)小說人物關系分析
利用gensim生成一個詞向量模型來分析人物關系。
T_T這個模型是Google在2013年開源出來的,具體實現細節還沒來得及看,算不上深度學習,只是淺層的神經網絡~~~
(3)小說情感分析
主要利用了snownlp庫。
具體實現過程詳見源代碼。
補充說明
分析小說之前需要先到相關網站下載小說的文本文件並新建一個含有小說中所有人物名的文本文件。
修改源代碼(analysis.py)中的:
if name == 'main':(98行)
下面的小說文件路徑后在cmd窗口中運行即可。
Python品紅樓
T_T首先讓我們看看這本我看了20年也只看了前3頁的中國古典四大名著之首!!!
主要人物(Top10):
前面幾個名字還是挺耳熟的???
人物關系圖:
也不曉得靠譜不,聚類得到的圖~~~
T_T隨手還得出了這樣的結論(逃):
小說整體的情感基調(消極or積極?):
以0.5為界,左邊代表消極,右邊代表積極~~~
這也太極端的嘛T_T
Python品天龍八部
只看過電視劇~~~
主要人物(Top10):
可能有些地方是喬峰,有些地方是蕭峰的原因吧,畢竟我覺得喬峰才是主角呀!
人物關系圖:
以及隨手得出的結論:
小說整體的情感基調(消極or積極?):
文章到這里就結束了,感謝你的觀看,關注我每天分享Python實戰案例系列,下篇文章分享遺傳算法擬合圖像。
為了感謝讀者們,我想把我最近收藏的一些編程干貨分享給大家,回饋每一個讀者,希望能幫到你們。
干貨主要有:
① 2000多本Python電子書(主流和經典的書籍應該都有了)
② Python標准庫資料(最全中文版)
③ 項目源碼(四五十個有趣且經典的練手項目及源碼)
④ Python基礎入門、爬蟲、web開發、大數據分析方面的視頻(適合小白學習)
⑤ Python學習路線圖(告別不入流的學習)
All done~完整源代碼+干貨詳見個人簡介或者私信獲取相關文件。。