【深度學習篇】---CNN和RNN結合與對比，實例講解

本文轉載自查看原文 2018-09-04 00:16 19713 深度學習和TensorFlow框架

一、前述

CNN和RNN幾乎占據着深度學習的半壁江山，所以本文將着重講解CNN+RNN的各種組合方式，以及CNN和RNN的對比。

二、CNN與RNN對比

1、CNN卷積神經網絡與RNN遞歸神經網絡直觀圖

2、相同點：
    2.1. 傳統神經網絡的擴展。
    2.2. 前向計算產生結果，反向計算模型更新。
    2.3. 每層神經網絡橫向可以多個神經元共存,縱向可以有多層神經網絡連接。

3、不同點
    3.1. CNN空間擴展，神經元與特征卷積；RNN時間擴展，神經元與多個時間輸出計算
    3.2. RNN可以用於描述時間上連續狀態的輸出，有記憶功能，CNN用於靜態輸出
   3. 3. CNN高級100+深度，RNN深度有限

三、CNN+RNN組合方式

1. CNN 特征提取，用於RNN語句生成圖片標注。

2. RNN特征提取用於CNN內容分類視頻分類。

3. CNN特征提取用於對話問答圖片問答。

四、具體應用

1、圖片標注

基本思路
       目標是產生標注的語句，是一個語句生成的任務，LSTM？
       描述的對象大量圖像信息，圖像信息表達，CNN？
       CNN網絡中全連接層特征描述圖片，特征與LSTM輸入結合。

具體步驟：

1.1 模型設計－特征提取
全連接層特征用來描述原圖片
LSTM輸入：word＋圖片特征；輸出下一word。

1.2 模型設計－數據准備

1. 圖片CNN特征提取
2. 圖片標注生成Word2Vect 向量
3. 生成訓練數據：圖片特征＋第n單詞向量：第n＋1單詞向量。

1.3 模型訓練：
1. 運用遷移學習，CNN特征，語句特征應用已有模型
2. 最終的輸出模型是LSTM，訓練過程的參數設定：梯度上限(gradient clipping), 學習率調整(adaptivelearning)
3. 訓練時間很長。

1.4 模型運行：

1. CNN特征提取
2. CNN 特征＋語句開頭，單詞逐個預測

2、視頻行為識別：

視頻中在發生什么？

2.1常用方法總結：

RNN用於CNN特征融合

1. CNN 特征提取

2. LSTM判斷

3. 多次識別結果分析。

不同的特征不同輸出。

或者：所有特征作為一個輸出。

2.2 RNN用於CNN特征篩選＋融合：

1. 並不是所有的視頻圖像包含確定分類信息

2. RNN用於確定哪些frame 是有用的

3. 對有用的圖像特征融合。

2.3 RNN用於，目標檢測：

1. CNN直接產生目標候選區

2. LSTM對產生候選區融合（相鄰時刻位置近似）

3. 確定最終的精確位置。

2.4 多種模型綜合：

競賽／應用中，為了產生最好結果，多采用多模型ensemble形式。

3、圖片／視頻問答

3.1 問題種類

3.2 圖片問答意義
1. 是對純文本語言問答系統的擴展
2. 圖片理解和語言處理的深度融合
3. 提高人工智能應用范圍－觀察，思考，表達

我的博客即將搬運同步至騰訊雲+社區，邀請大家一同入駐：https://cloud.tencent.com/developer/support-plan?invite_code=1wzcx9d4ww853

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [學習筆記] CNN與RNN方法結合深度學習入門: CNN與LSTM(RNN) RNN CNN Transformer 對比 Deep Learning（深度學習)整理，RNN,CNN,BP 拓端tecdat|TensorFlow 2.0 keras開發深度學習模型實例：多層感知器（MLP），卷積神經網絡（CNN）和遞歸神經網絡（RNN）深度學習實戰篇-基於RNN的中文分詞探索對比學習用 Keras 搭建 CNN RNN 等常用神經網絡深度學習之從RNN到LSTM 用深度學習（CNN RNN Attention）解決大規模文本分類問題 - 綜述和實踐用深度學習（CNN RNN Attention）解決大規模文本分類問題 - 綜述和實踐