這是一篇關於皮膚癌分類的文章,核心就是分類器,由斯坦福大學團隊發表,居然發到了nature上,讓我驚訝又佩服,雖然在方法上沒什么大的創新,但是論文本身的工作卻意義重大,並且這篇17年見刊的文章,引用量已經達到1300多,讓人佩服,值得學習。
【出發點】現有的皮膚癌分類系統由於數據量不夠,同時只針對標准化的圖像如皮膚鏡圖像和組織圖像,通用性不夠,還難以媲美醫生的水平,也就是說不能投入實際使用
【論文核心】利用inceptionv3訓練12萬張圖片,對皮膚癌的診斷達到可媲美皮膚科醫生的水平
【論文貢獻】1.從互聯網上收集12萬張皮膚癌圖像,這其中大多數為普通的圖像(不是醫學設備產生的標准圖像),並由皮膚科醫生打上類別標簽
2.設計一套分類算法,對收集的圖像進行詳細的分類
3.利用在imagenet上預訓練的inceptionv3在皮膚癌圖像上訓練,可得到非常好的效果
下面詳細講一下這三個點,主要是第一點,這是一個工作量很大的事,也是我認為本文最大的貢獻所在。
1.數據
之前的皮膚癌分類系統使用的數據集較小,通常小於1000張圖像,於是本文作者就在互聯網上收集了129450張圖像,其中3374張是皮膚鏡圖像(皮膚鏡是皮膚科醫生診斷時使用的專業手持設備)
在這些圖像中共包含2032中疾病,但是訓練分類器的時候,作者將輸出的類別精簡為757類,具體是如何做的就是本文的第二點貢獻啦,論文給出一個簡潔直觀的圖示,可以看到是一個樹結構,2032種疾病的每一個都是一個葉子結點,然后不斷向上聚合,形成更大的結點。
數據集是如何划分的呢,127463張圖像作為訓練集和驗證集,1942張作為測試集。
2.分類算法
分類算法的思路很簡單,從根節點開始遍歷,計算當前節點所屬類別包含的圖片數量,以上面的Benign節點為例,它包含的圖片數就是該節點下面所有葉子節點的圖片數目和,若該數目超出設定的閾值(本文為1000),則遞歸計算該節點的所有子節點,否則滿足條件,將該節點設為用來訓練的類別,即757之一。具體流程如下,思路還是很清晰的,也很合理。
3.網絡
網絡上其實沒啥新意,對於這種開創性的工作,確實不需要說網絡有多大的創新
那么本文的網絡采用的是inceptionV3,很奇怪,另一篇cell上的關於眼病分類的文章采用的也是inceptionV3,其實現在普遍采用的分類器是resnet系列,而這兩篇重量級高質量文章都采用了inceptionV3,很奇怪。
網絡的輸出為757類,具體見上面的圖,都是各種細分的皮膚區域,然后根據自己的需要,你可以對輸出概率進行求和,得出更大的更粗糙的類別的概率,這一點不難理解。
論文鍾對這一點有一個更直觀的圖解,綠色的結點構成757類輸出,紅色結點是更加粗糙更大范圍的分類,那么大類的概率就是對下面子類概率的簡單求和。
【實驗結果】本文的分類實際上只針對兩種皮膚癌,也就產生了本文的兩個任務:角質形成細胞癌(keratinocyte carcinomas)vs 良性脂溢性角化病(benign seborrheic keratoses);惡性黑色素瘤 vs 普通的痣,在 21 位經過認證的皮膚科醫生的監督下,測試了它在活檢證實的臨床圖像上的性能。第一例代表最常見的癌症的識別,第二例代表了最致命的皮膚癌的識別。深度卷積神經網絡在這兩個任務上的表現都達到了所有測試的專家的水平,證明了該人工智能的皮膚癌鑒定水平達到了媲美皮膚科醫生的水平。論文中的測試集用了三種數據,也就是共有三種測試,分別是epidermal lesions(上皮病變),melanocytic lesions(黑素細胞病變)和melanocytic lesions(dermoscopy)(也是黑素病變,只不過采用的是皮膚鏡圖像),下面高能,圖示三種任務,都是二分類的。
定量的評估呢,本文采用敏感性-特異性曲線,也就是正樣本的召回率-負樣本的召回率,后者會隨着前者的增大而由1 降為0。上圖吧,可以看到,完全超過醫生的水平
那些紅色的點就是皮膚科醫生的水平,完全處於分類器的曲線下面,在不同的數據量和不同類的數據上都有91%以上的表現,我佛了。
總結下,這絕對是有重要貢獻的好文章,贊!