第九屆泰迪杯數據挖掘挑戰賽B題經驗分享

本文轉載自查看原文 2021-06-24 20:57 388 數據挖掘

研一選修課選了機器學習，期末作業是參加泰迪杯，暈了~本着不能虧報名費的心態，和組內的同學組了隊，認真肝了幾天論文，幸運的拿到了網速創新獎，把參賽費賺回來了，好耶！任務分配上，我負責代碼實現和技術部分論文，隊友負責論文其他部分及ppt，下面就直接進入正題辣~（其實都是復制黏貼論文里的）

首先是第一問，給岩石圖像做分類。觀察到原始數據集圖像共315張，首先按9：1的比例划分訓練集與測試集，測試集32張圖像，訓練集283張圖像。然后是數據增強，首先對原始數據集的圖像做了旋轉、翻轉與鏡像處理，得到1132張圖像。數據集共有7類岩石，各類岩石圖像數並不相同，其中淺灰色細砂岩圖像數是灰色細砂岩的近5倍，即數據集存在數據失衡的現象。所以進一步對其中占比較少的岩石種類的圖像進行小幅度旋轉處理來達到數據增強的目的，最終，使得數據集各岩石種類的圖像占比大致相等。

	淺灰色細砂岩	深灰色泥岩	深灰色粉砂質泥岩	灰色泥質粉砂岩	灰色細砂岩	灰黑色泥岩	黑色煤	總計
數據增強前	85	75	40	46	18	30	21	315
數據增強后	313	279	306	340	322	305	306	2171

由於訓練集中部分圖片既包括岩石，也包括地板背景，因此需要對這一部分圖像進行裁剪處理，只保留圖像中岩石的部分。對於測試集，由於測試圖像僅有32張，故在訓練前需預先對圖像進行切割。對於不包含地板的圖像，我們用大小為320×320的滑動窗口進行切割；對於包含地板的圖像，我們首先裁剪出圖像中心960×960大小的部分以去除無用的地板部分圖像，再從中用大小為320×320的滑動窗口進行切割，最終得到3,051張測試圖像。

	圖像數量	圖像大小
訓練集	2,140	4096×3000或2448×2048
測試集	3,051	320×320

模型我們用了ResNeSt。由於圖像較大，我們在預測岩石種類時首先以960×960裁剪出圖像中心，然后再裁剪出9張320×320大小的圖像進行預測，取其中占比較大的岩石種類作為預測並與只隨機裁剪一張320×320大小的圖像用於預測進行對比。

方法	准確率
裁剪1張圖像用於預測	92.8%
裁剪9張圖像用於預測	97.2%

第二問是計算岩石含油面積占比，原始數據集沒有標注油氣的量，所以首先需從圖像中提取出油氣部分用於計算面積。我們首先將原始圖像轉化為HSV顏色空間的圖像，將原始圖像轉化為HSV圖像后，將其中綠色與黃色部分轉為白色，其余部分轉為黑色，得到掩膜圖像。最后，我們利用掩膜圖像提取原始圖像中的油氣部分並計算其面積。

由於數據集中部分圖像不僅包含岩石，還包括地板，所以我們需要從原始圖像中提取出岩石部分的面積。我們采用U-Net對該類岩石圖像進行分割。由於初始圖像尺寸為2048×2448，若將完整圖像送入模型進行訓練所需時間過長，所以我們將圖像按比例縮小至320×384。由於數據集不包含岩石圖像的掩膜圖像，所以我們使用labelme人工標注了圖像。

實驗部分就結束了，惜哉由於天天打游戲，寫論文的時間太少了，沒多少時間修改，甚至還出現了標題錯誤。。最后能拿到網速創新獎真是運氣好了希望下次打比賽能認真點，不要天天打游戲辣

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 明碼——第九屆藍橋杯C語言B組（省賽）第二題 2018-第九屆藍橋杯大賽個人賽省賽（軟件類）真題 C大學B組第九屆藍橋杯省賽第八題---日志統計 2018年第九屆藍橋杯C/C++A組省賽（最后一題） 2018-第九屆藍橋杯大賽個人賽省賽（軟件類）真題 C大學A組 2018年第九屆藍橋杯第四題：測試次數 (滿分17分) 2018年第九屆藍橋杯決賽Java本科B組試題解析 2018年第九屆藍橋杯題目（C/C++B組）匯總 2020第四屆"強網杯"全國網絡安全挑戰賽-Funhash 2020第四屆"強網杯"全國網絡安全挑戰賽-主動