index = similarities.MatrixSimilarity(lsi[corpus]) #
管網的原文翻譯如下:
警告:similarities.MatrixSimilarity
類僅僅適合能將所有的向量都在內存中的情況。例如,如果一個百萬文檔級的語料庫使用該類,可能需要2G內存與256維LSI空間。
如果沒有足夠的內存,你可以使用similarities.Similarity
類。該類的操作只需要固定大小的內存,因為他將索引切分為多個文件(稱為碎片)存儲到硬盤上了。它實際上使用了similarities.MatrixSimilarity
和similarities.SparseMatrixSimilarity
兩個類,因此它也是比較快的,雖然看起來更加復雜了。
現在我就是大語料庫,MatrixSimilarity這個類運行,就報錯 Memory Error
可是關於similarities.Similarity 用法 在哪里呢??在哪里呢??在哪里呢??在哪里呢??
搜盡全網都沒有答案,最可惡的是管網也不提這個用法。你不寫參數,我知道咋用啊。
感恩,感恩
https://stackoverflow.com/questions/36578341/how-to-use-similarities-similarity-in-gensim
一位小哥寫了這樣的答案
可是可是 三個參數什么意思呢?
猜了半天,終於明白了。
中文解釋一下:
第一個參數 就是‘E:\\cm_test’ ,是一個地址,這個地址,我猜是用來存放緩存文件的。
第二個參數 是tfidf向量化的語料庫
第三個參數 是你的語料庫文本的數量,我的數量是42萬多行,如實寫上
終於運行通過,