在處理大批量的NLP詞頻矩陣時，出現memoryError的錯誤

本文轉載自查看原文 2019-07-11 14:10 400 NLP/ 機器學習

在進行自然語言處理時候，遇到如下錯誤：

進行詞語切分后，使用tfidf做詞頻矩陣，導致程序報出錯誤：MemoryError

報錯原因：文本條數過大，導致內存超載，在這里 File "C:/Users/Administrator/Desktop/temp.py", line 49, in <module>weight=tfidf.toarray()

觸發MemoryError
解決方法：對關鍵詞庫進行去重

具體操作為：1方案，將原有的null值通過remove刪除

　　　　　　 2方案：將原有的列表轉化為集合，再轉化為列表（此方法可能會刪除重復的，但有用的詞匯，再做tfidf時會有誤差，不建議再自然語言處理中使用這種方法）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark 中在處理大批量數據排序問題時，如何避免OOM poi導出大批量數據時導致頁面崩潰處理方案 mysql游標處理大批量數據問題多線程分頁處理大批量數據實例大批量數據讀寫 [linux] 大批量刪除任務 linux 下壓縮大批量文件 POI 導出大批量數據的Excel mysql 導入大批量excel數據 java大批量數據導入（MySQL）