爬蟲再探實戰(五)———爬取APP數據——超級課程表【四】——情感分析


    仔細看的話,會發現之前的詞頻分析並沒有什么卵用。。。文本分析真正的大哥是NLP,不過,這個坑太大,小白不大敢跳。。。不過還是忍不住在坑邊上往下瞅瞅2333.

言歸正傳,今天剛了解到boson公司有python關於自然語言處理的API,於是試着用了一下,官方文檔很不錯,簡單明了。首先是pip install bosonnlp。下面是一些簡單應用,其實就是改一點官方的例子Orz...密鑰的話,我的不給看(因為有請求次數限制的。。。),自己在這里注冊一下就有啦。

# -*- coding: utf-8 -*-

# 情感分析
from __future__ import print_function, unicode_literals
from bosonnlp import BosonNLP

nlp = BosonNLP('這里應該是你的密鑰')
print(nlp.sentiment("樓主真是帥啊"))
print(nlp.sentiment("樓主真是太弱了"))  

     輸出如下:

    兩個列表對應着兩句話,列表里面的兩個數字,分別為正面指數,負面指數。額。。那個結果,,還算是挺合理的吧。

    也可以換個姿勢,再請求一遍這兩段文本:

import json
import requests

SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis'
# 注意:在測試時請更換為您的API Token
headers = {'X-Token': '這里應該是你的密鑰'}

s = ['樓主真是帥啊', '樓主真是太弱了']
data = json.dumps(s)
resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8'))

print(resp.text)

  輸出結果也是一樣的:

    還有很多有趣的用法,這個就留在以后有空的時候再深入研究啦。

    這個,其實我還是想分析一下那些帖子的文本信息,用API做當然可以,不過那樣雖然嚴謹,但是,沒有直接利用boson提供的頁面解析文本方便些。

於是,我就開始了,無恥的粘貼和復制。。。效果如下:

 

 

    這個關鍵詞提取還是可以的2333。。。其中精髓,自己聯想吧!不過,也許是自己太與世隔絕orz。。。不明白dogo是什么,查了下,不解釋啦,是它!

    

    至此,和超級課程表的交集就算完結了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM