全網獨發gensim中similarities.Similarity用法


index = similarities.MatrixSimilarity(lsi[corpus]) #

管網的原文翻譯如下:

警告:similarities.MatrixSimilarity類僅僅適合能將所有的向量都在內存中的情況。例如,如果一個百萬文檔級的語料庫使用該類,可能需要2G內存與256維LSI空間。 
如果沒有足夠的內存,你可以使用similarities.Similarity類。該類的操作只需要固定大小的內存,因為他將索引切分為多個文件(稱為碎片)存儲到硬盤上了。它實際上使用了similarities.MatrixSimilaritysimilarities.SparseMatrixSimilarity兩個類,因此它也是比較快的,雖然看起來更加復雜了。

 

現在我就是大語料庫,MatrixSimilarity這個類運行,就報錯  Memory Error

可是關於similarities.Similarity 用法 在哪里呢??在哪里呢??在哪里呢??在哪里呢??

搜盡全網都沒有答案,最可惡的是管網也不提這個用法。你不寫參數,我知道咋用啊。

感恩,感恩

https://stackoverflow.com/questions/36578341/how-to-use-similarities-similarity-in-gensim

一位小哥寫了這樣的答案

 

 可是可是 三個參數什么意思呢?

猜了半天,終於明白了。

中文解釋一下:

第一個參數  就是‘E:\\cm_test’ ,是一個地址,這個地址,我猜是用來存放緩存文件的。

第二個參數 是tfidf向量化的語料庫

第三個參數 是你的語料庫文本的數量,我的數量是42萬多行,如實寫上

終於運行通過,

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM