什么是端到端的深度學習?(What is end-to-end deep learning?)
端到端學習到底是什么呢?簡而言之, 以前有一些數據處理系統或者學習系統,它們需要多個階段的處理。那么端到端深度學習就是忽略所有這些不同的階段,用單個神經網絡代替它。
以語音識別為例,你的目標是輸入x,比如說一段音頻,然后把它映射到一個輸出y,就是這段音頻的聽寫文本。所以和這種有很多階段的流水線相比,端到端深度學習做的是,你訓練一個巨大的神經網絡,輸入就是一段音頻,輸出直接是聽寫文本。
事實證明,端到端深度學習的挑戰之一是,你可能需要大量數據才能讓系統表現良好,比如,你只有 3000 小時數據去訓練你的語音識別系統,那么傳統的流水線效果真的很好。但當你擁有非常大的數據集時,比如 10,000 小時數據或者 100,000 小時數據,這樣端到端方法突然開始很厲害了。所以當你的數據集較小的時候,傳統流水線方法其實效果也不錯,通常做得更好。你需要大數據集才能讓端到端方法真正發出耀眼光芒。如果你的數據量適中,那么也可以用中間件方法,你可能輸入還是音頻,然后繞過特征提取,直接嘗試從神經網絡輸出音位,然后也可以在其他階段用,所以這是往端到端學習邁出的一小步,但還沒有到那里。