在進行自然語言處理時候,遇到如下錯誤:
進行詞語切分后,使用tfidf做詞頻矩陣,導致程序報出錯誤:MemoryError
報錯原因:文本條數過大,導致內存超載,在這里 File "C:/Users/Administrator/Desktop/temp.py", line 49, in <module>weight=tfidf.toarray()
觸發MemoryError
解決方法:對關鍵詞庫進行去重
具體操作為:1方案,將原有的null值通過remove刪除
2方案:將原有的列表轉化為集合,再轉化為列表(此方法可能會刪除重復的,但有用的詞匯,再做tfidf時會有誤差,不建議再自然語言處理中使用這種方法)
本文本為版權所有,如若轉載,請注明轉載來源