第七講_圖像描述(圖說)Image Captioning
-
本章結構
-
遞歸神經網絡
-
時序后向傳播(BPTT)
朴素Vanilla-RNN
- 基本模型
- 用sigmoid存在嚴重的梯度消失
LSTM長短時記憶模型(97年提出)
-
基本模型
-
模型對比
-
LSTM數學模型
-
控制門作用理解
-
LSTM結構圖
-
LSTM變種:
-
Peephole
-
Coupled 忘記輸入門
GRU門限遞歸單元(Gated Recurrent Unit)
- 改進
- LSTM和GRU比較
圖像描述
-
為圖片生成描述語言
-
具有多模態理解和推理;復合理解與推理等研究難點和挑戰
-
傳統的分段處理策略
-
新的點對點策略
-
模型組成
Show and tell 模型
-
概述
-
具有attention機制模型
數據集
- MSCOCO標注集