仔細看的話,會發現之前的詞頻分析並沒有什么卵用。。。文本分析真正的大哥是NLP,不過,這個坑太大,小白不大敢跳。。。不過還是忍不住在坑邊上往下瞅瞅2333.
言歸正傳,今天剛了解到boson公司有python關於自然語言處理的API,於是試着用了一下,官方文檔很不錯,簡單明了。首先是pip install bosonnlp。下面是一些簡單應用,其實就是改一點官方的例子Orz...密鑰的話,我的不給看(因為有請求次數限制的。。。),自己在這里注冊一下就有啦。
# -*- coding: utf-8 -*- # 情感分析 from __future__ import print_function, unicode_literals from bosonnlp import BosonNLP nlp = BosonNLP('這里應該是你的密鑰') print(nlp.sentiment("樓主真是帥啊")) print(nlp.sentiment("樓主真是太弱了"))
輸出如下:
兩個列表對應着兩句話,列表里面的兩個數字,分別為正面指數,負面指數。額。。那個結果,,還算是挺合理的吧。
也可以換個姿勢,再請求一遍這兩段文本:
import json import requests SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis' # 注意:在測試時請更換為您的API Token headers = {'X-Token': '這里應該是你的密鑰'} s = ['樓主真是帥啊', '樓主真是太弱了'] data = json.dumps(s) resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8')) print(resp.text)
輸出結果也是一樣的:
還有很多有趣的用法,這個就留在以后有空的時候再深入研究啦。
這個,其實我還是想分析一下那些帖子的文本信息,用API做當然可以,不過那樣雖然嚴謹,但是,沒有直接利用boson提供的頁面解析文本方便些。
於是,我就開始了,無恥的粘貼和復制。。。效果如下:
這個關鍵詞提取還是可以的2333。。。其中精髓,自己聯想吧!不過,也許是自己太與世隔絕orz。。。不明白dogo是什么,查了下,不解釋啦,是它!
至此,和超級課程表的交集就算完結了。