全網獨發gensim中similarities.Similarity用法

本文轉載自查看原文 2019-08-11 23:00 2135 gensim/ similarities.Similarity/ Memory Error/ NLP知識

index = similarities.MatrixSimilarity(lsi[corpus]) #

管網的原文翻譯如下：

警告：similarities.MatrixSimilarity類僅僅適合能將所有的向量都在內存中的情況。例如，如果一個百萬文檔級的語料庫使用該類，可能需要2G內存與256維LSI空間。
如果沒有足夠的內存，你可以使用similarities.Similarity類。該類的操作只需要固定大小的內存，因為他將索引切分為多個文件（稱為碎片）存儲到硬盤上了。它實際上使用了similarities.MatrixSimilarity和similarities.SparseMatrixSimilarity兩個類，因此它也是比較快的，雖然看起來更加復雜了。

現在我就是大語料庫，MatrixSimilarity這個類運行，就報錯 Memory Error

可是關於similarities.Similarity 用法在哪里呢？？在哪里呢？？在哪里呢？？在哪里呢？？

搜盡全網都沒有答案，最可惡的是管網也不提這個用法。你不寫參數，我知道咋用啊。

感恩，感恩

https://stackoverflow.com/questions/36578341/how-to-use-similarities-similarity-in-gensim

一位小哥寫了這樣的答案

可是可是三個參數什么意思呢？

猜了半天，終於明白了。

中文解釋一下：

第一個參數就是‘E:\\cm_test’ ,是一個地址，這個地址，我猜是用來存放緩存文件的。

第二個參數是tfidf向量化的語料庫

第三個參數是你的語料庫文本的數量，我的數量是42萬多行，如實寫上

終於運行通過，

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 gensim中TaggedDocument 怎么使用 Python gensim庫word2vec 基本用法初識gensim Gensim入門教程 Linux下安裝Gensim gensim Word2Vec 訓練和使用(Model一定要加載到內存中，節省時間！！！) 功能按鈕發post請求參數放入body中 Objective-C中的老板是這樣發通知的（Notification) jaccard similarity coefficient 相似度計算 jaccard相似系數（Jaccard similarity coefficient）