在處理大批量的NLP詞頻矩陣時,出現memoryError的錯誤


在進行自然語言處理時候,遇到如下錯誤:

進行詞語切分后,使用tfidf做詞頻矩陣,導致程序報出錯誤:MemoryError


 報錯原因:文本條數過大,導致內存超載,在這里 File "C:/Users/Administrator/Desktop/temp.py", line 49, in <module>weight=tfidf.toarray()

                  觸發MemoryError
解決方法:對關鍵詞庫進行去重

 具體操作為:1方案,將原有的null值通過remove刪除

       2方案:將原有的列表轉化為集合,再轉化為列表(此方法可能會刪除重復的,但有用的詞匯,再做tfidf時會有誤差,不建議再自然語言處理中使用這種方法)

 

 

本文本為版權所有,如若轉載,請注明轉載來源


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM