(重磅)Internal: Failed to call ThenRnnForward with model config問題的解決(Keras 2.4.3和Tensorflow2.0系列)


與此問題斗爭了整整十天。win10,keras2.4.3,CUDA 10.1,CUDNN 7.6, tensorflow 2.3.0,驅動程序nvida 452

該問題出現在BiLSTM(GPU加速)的快速運算過程中,但凡在BiLSTM的后端添加任何層,處理百萬數據時,往往訓練幾個epoch,甚至是幾十個batch就會崩潰。

期間試過了無數的方法。包括、

1)誤認為是顯存問題

2)分批加載至內存,清空,重新model

3)降低keras版本,一個版本一個版本試錯,從2.4.3降到2.3.0,成功了。但是運行速度特別慢。

4)不用keras的BiLSTM,重新寫BiLSTM。

但是都沒用。最后懷着無比絕望的心情,看到了tensorflow上的一個open bug標志。

 

當時,我認為,這個問題解決不了了。有猴子評論說,坐等keras支持更高級的CUDA。我也信了。因為Keras最新只支持CUDA 10.1和CUDNN7.6。

還好自己一直關注這個問題,終於在網址https://github.com/tensorflow/tensorflow/issues/37942中尋找到了一個被close的同一問題。、

里面一個網友,輕描淡寫的寫了一句,卸了驅動,裝431。

我就抱着最后一絲希望試了試。還真成功了。。

這說明軟件的缺陷,指派給了不同的管理員,解決方式是完全不一樣,信息不對等,人也不是全能,全知。

tensorflow的管理員有多個,面對不同人匯報的同一問題,一個open了,一個close了。然后兩個問題的描述也不一致。一個叫BiLSTM問題,另外一個叫Failed to call ThenRnnForward with model config。

正好我做的相似缺陷報告檢測就是分析不同缺陷報告之間的文本差異,回答“不同缺陷報告是否屬於同一缺陷”。自己的研究,也被自己撞上了。。。

 

通過搜索該版本驅動。重新安裝整個過程。

最后會遇到以前運行模型經常遇到的BLAS問題,對,我叫不拉屎問題。程序不拉屎。

看到不拉屎問題,而不是 Failed to call ThenRnnForward with model config問題,我就釋然了。

不拉屎問題添加如下代碼即可:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM