1.緒論 過去幾年,深度神經網絡在模式識別中占絕對主流。它們在許多計算機視覺任務中完爆之前的頂尖算法。在語音識別上也有這個趨勢了。而中文文本處理,以及中文自然語言處理上,似乎沒有太厲害的 ...
1.緒論 過去幾年,深度神經網絡在模式識別中占絕對主流。它們在許多計算機視覺任務中完爆之前的頂尖算法。在語音識別上也有這個趨勢了。而中文文本處理,以及中文自然語言處理上,似乎沒有太厲害的 ...
目前對中文分詞精度影響最大的主要是兩方面:未登錄詞的識別和歧義切分。 據統計:未登錄詞中中文姓人名在文本中一般只占2%左右,但這其中高達50%以上的人名會產生切分錯誤。在所有的分詞錯誤中,與人 ...
8.最佳電影聚類分析 將使用電影簡介作為原始數據,將總共 100 部流行電影進行聚類分析。IMDb 也稱為互聯網電影數據庫(www.imdb.com),是一個在線的數據庫,它提供有關電影、電子游戲和 ...
緒論 最近做課題,需要分析短文本的標簽,在短時間內學習了自然語言處理,社會標簽推薦等非常時髦的技術。我們的需求非常類似於從大量短文本中獲取關鍵詞(融合社會標簽和時間屬性)進行用戶畫像。這一切的 ...
IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017. IEE ...
引言 今天在逛論文時突然看到信息熵這個名詞,我啪的一下就記起來了,很快啊!!這不是我大一第一節信息資源管理概論課講到的第一個專業名詞嗎,信息熵我可熟了,章口就來,信息熵是負熵 .......淦,負熵 ...
引言 其實最近挺糾結的,有一點點焦慮,因為自己一直都期望往自然語言處理的方向發展,夢想成為一名NLP算法工程師,也正是我喜歡的事,而不是為了生存而工作。我覺得這也是我這輩子為數不多的剩下的可以自己去 ...
6.文檔相似度分析 將嘗試分析文檔之間的相似度指出。到目前為止,相比已經知道了文檔的定義是可以由句子或文本段落組成的文本體。為了分析文檔相似度,將使用 utils 模塊的 build_feature ...
話說微博面世已經很久了,但對於微博信息的挖掘卻才剛剛起步,這其中的原因當然有信息挖掘的技術還不成熟,但我覺得主要問題還是在於中文信息處理的技術還處於萌芽的階段。中文語言本身信息量就很大, ...
5.詞項相似度分析 將從分析詞項相似度入手,或者更准確的說,將從分析單獨的單詞標識相似度入手。雖然詞項相似度分析沒有在實際應用中大量使用,但是仍可以作為理解文本相似度分析的一個很好的出發點。當然,一 ...