[]To help you practice strategies for machine learning, the following exercise will present an in-depth scenario and ask how you would act. Consider airplane pilots who’s training involves time spent in flight simulators. These flight simulators accelerate the pilots’ learning by allowing them to experience a volume and variety of scenarios that they otherwise may have needed a much longer time to acquire.
The following exercise is a “flight simulator” for machine learning. Rather than you needing to spend years working on a machine learning project before you get to experience certain scenarios, you’ll get to experience them right here.
Personal note from Andrew: I’ve found practicing with scenarios like these to be useful for training PhD students and advanced Deep Learning researchers. This is the first time this type of “airplane simulator” for machine learning strategy has ever been made broadly available. I hope this helps you gain “real experience” with machine learning much faster than even full-time machine learning researchers typically do from work experience.
【中文翻譯】
為了幫助您練習機器學習的策略, 下面的練習將呈現一個 in-depth 的場景, 並詢問您將如何行動。考慮飛機駕駛員的訓練需要花費時間在飛行模擬器上。這些飛行模擬器加速了飛行員的學習, 使他們能夠體驗到他們可能需要更長時間才能獲得的大量和不同的場景。
下面的練習是機器學習的 "飛行模擬器"。你需要花費數年的時間在一個機器學習項目,你才能體驗到的,在這里你會體驗到他們。
Andrew的個人筆記: 我發現練習這種情景對培養博士生和高級深度學習研究人員是有用的。這是第一次這種類型的 "飛機模擬器" 的機器學習策略廣泛提供。我希望這能幫助你獲得 "真正的機器學習經驗" ,甚至比全日制機器學習的研究人員從通常做的工作中獲得經驗快得多。
------------------------------------------------------------------------------------------------
Bird recognition in the city of Peacetopia (case study)
【中文翻譯】
1、問題陳述
這個例子是從一個真正的生產應用, 但細節偽裝, 以保護機密。
你是 Peacetopia 市的著名研究員。Peacetopia 的人有一個共同的特點: 他們害怕鳥。為了救他們, 你必須建立一個算法, 將檢測任何鳥飛越 Peacetopia 並向人們警報。
【中文翻譯】
A、一個更大的測試集將減慢迭代的速度, 因為在測試集上評估模型的計算費用。
B、這將導致開發和測試集分布變得不同。這是一個壞主意, 因為你沒有瞄准你想要擊中的地方。
C、測試集不再反映您最關心的數據 (安全攝像機拍的) 的分布。
D、與其余的數據相比,100萬公民的數據圖像沒有一個一致的 x->> y 映射 (類似於紐約市/底特律住房價格的例子, 從講座)。
【中文翻譯】
B、這是一個統計異常 (或必須是統計噪聲的結果), 因為它不應該是可能超越人類的水平的表現。
C、如果測試集足夠大, 足以使0.05% 錯誤估計准確, 這意味着貝葉斯錯誤率是≤0.05
D、只要有0.09% 的進一步進展, 你應該能夠迅速減少剩余的差距到0%
【中文翻譯】
B、請您的團隊在開發過程中考慮准確性和假負率。
C、重新考慮此任務的適當度量, 並要求您的團隊調整到新的度量標准。
D、選擇假負率作為新的度量, 並使用這個新的度量來推動所有的進一步發展。
【中文翻譯】
C、嘗試數據擴充/數據合成, 以獲得更多的新類型的鳥圖像。
D、將1000圖像添加到數據集中, 重新調整為新的火車/開發/測試剝離。
【中文翻譯】
A、建立了一個好的鳥探測器, 你應該能夠采取相同的模型和參數, 只是將它應用到 Cat 數據集, 所以沒有必要迭代。
B、需要兩個星期的訓練將限制你可以循環的速度。
C、購買更快的計算機可以加快團隊的迭代速度, 從而提高團隊的工作效率。
D、如果1億的例子足以建立一個足夠好的 Cat 檢測器, 用1000萬個例子, 你可能會更好的訓練, 在快速運行實驗方面,獲得一個a≈10x 的改進,即使每個模型表現得有點差, 因為它的訓練較少數據.