分析《人民的名義》的觀眾評論及總結


        我們都知道 《人民的名義》 這部反腐大戲,湖南衛視不惜花費二億多人民幣買斷了它的獨播權。《人民的名義》上映不久,引起大家的廣泛關注,觀看率直線上升,並且好多觀眾都反映更新的太慢(后面會給出證據),網上都出現了全集審評版的《人民的名義》,引起了諸多的問題。這值得我們思考以下幾個問題?

1. 這部戲主要講的內容是什么,有哪些主要的角色?
2. 這部戲為什么會這么火呢?
3. 觀眾都有怎樣的評論呢?
4. 這些評論觀眾的地區分布情況?

下面我從數據分析的角度去思考以上幾個問題,為此我做了如下2件事:

1. 從書本網上,爬去《人民的名義》這本小說,然后對它做了一些簡單的文本分析(上一篇博客)

2. 從豆瓣網上,爬去觀眾的評論,從評論數據中去發現問題,尋找答案,並啟發我們去思考一些社會問題。

一、數據的爬去

      我們要分析數據,首先是要獲得數據,到今天為止豆瓣上共有十三萬多觀眾參與了評價,相比於國產片目前評分排名第一的《大明王朝》《走向共和》,與早就上映的評分9.4的1986年版《西游記》來說,《人們的名義》的參與評論觀眾人數遠大於它們。上映不到一個月,這數據是貌似豆瓣上史無前例的,從中我們可以預測在未來的國產劇中,肯定會上映類似的電視劇。

 

        十三萬多觀眾的數據是如何統計的呢, 豆瓣將數據分為三大類:看過(collections),想看(wishes),在看(doings). 每一類數據,豆瓣會隨機更新呈現出200條評論,為了抓取這些不重復的數據,我開始保存在.txt文件中,發現每次只能抓取200條觀眾評論數據,當數據再次更新時再爬去數據時,如果改保存的文件名話,這樣會導致兩個文件保存的數據可能會重復。為了方便處理與保存這些數據,自己決定把它們保存在MySQL數據庫中,通過python爬去數據,每次插入新的數據時,使用“insert ignore into table_name values( )”命令與定義數據庫的鍵,這樣只要我每運行一次程序就可以得到最新的數據。分別爬去了每個觀眾的網址、昵稱、地址、評論時間、評論星級,評論內容。如下數據只獲取了最近三天的數據,一共有1345條數據,其中由於collections這類觀眾的數據更新較快,爬去的數據也比較多。

   

在爬去過程中,發現有些觀眾沒有地址,沒有評語,或者沒有評論星級,這給爬去數據帶來了一些麻煩(主要通過BeautifulSoup,re模塊解決), 具體的代碼后續給出。

        為了關注觀眾的熱門討論話題,在豆瓣上有一個討論區,到目前為止已有3100+討論話題。同樣把這些數據保存在MySQL數據庫中,分別抓取了每個熱門話題的標題、發起者,回應條數,更新時間與話題對應的網址,如下表:

二、數據的處理與分析

1.單變量的分析

      首先考慮的是統計評論者的地區分布情況(假定每個評論者的地址正確),直至目前為止共統計了1658條數據,發現有226個城市參加了評論,我們只給出評論數大於3的城市,如下圖所示:

  圖中“不明地址”表示評論者沒有給出自己所在地址,大約有130左右。從圖中,我們可以發現大部分評論者主要分布在北京,上海,杭州,深圳,廣州,成都,南京。

我們可以分析一下這數據背后的一些東西,假定評論者越多的城市,說明該城市顧客的參與度越高,商品潛在的需求量就越大,創業成功率就高;所以如果你有一顆創業的心,就多

去這些大城市,萬一就實現了呢。 除北上廣深外,我們發現杭州、成都,南京的評論觀眾占比也很大;所在國外的評論者數目排名前四是:紐約,倫敦,舊金山,新加波;從這個角

度是否可以說明這四個城市相對其他海外城市中國人較多呢?

  

       下面我們分析一下觀眾的評星狀況,豆瓣評分系統給出,力推(5五顆星),推薦(4顆星),,,很差(1顆星),未評星,這六種選擇。豆瓣是如何處理這些不給評星的數

據? 如何打出最后得分?(條目的評分是將豆瓣成員的評價數據加權平均計算后的結果,通過算法的調校,使得海量用戶主觀喜好的聚合能夠更客觀准確地反映條目本身的價值。)

google發現豆瓣如何具體計算評分不僅僅使用的IMDB評分規則,它其實是個很復雜的過程。因此,在這里只給出了最近四天的統計數據,如下圖:

這與豆瓣網上給出的數據有些差別,自己分析主要的原因是:1、統計的數據不全,只統計了最近四天的數據;2、有些觀眾未評分。

        下面我們看看,這些評論觀眾是如何給出評語的?看如下雲詞圖:

第一幅雲詞圖是已經看過的觀眾評論語關鍵字提取,第二幅是正在看的觀眾評語的關鍵字。這兩幅雲詞中都有:演技、陸毅、祁同偉,拖沓,老骨戲,李大康等這些顯目的詞匯。

下面給出一些觀眾評語:

  觀眾回應數排名前十大熱門討論話題:

     

        其實還有好多東西可以值得我們去分析,由於時間原因,我今天就分享到這里。關於一些爬蟲、字體編碼等技術問題,下次再給出新的博文說明。歡迎大家查看,謝謝!!

 

 

 

 

      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM