概述
在前邊一篇文章,我們講了如何復現論文代碼,使用pascal voc 2012數據集進行訓練和驗證,具體內容可以參考《deeplab v3+在pascal_voc 2012數據集上進行訓練》,在本篇文章,我們主要講述,如何對deeplab v3+進行遷移學習,也即如何使用deeplab v3+算法來訓練個人的數據集。
1. 數據集准備
首先在開始之前我們先對數據集做一個簡單的說明,由於deeplabv3+
使用的TensorFlow
框架,並且為了提高訓練的速度,因此在訓練開始前,需要轉換成tfrecorde
類型的文件來進行訓練,因此,我們直接仿照pascal voc 2012數據集的數據結構來制作數據集,這樣我們在訓練所需圖片准備完成之后可以直接復用轉換tfrecorde
的腳本。
1.1 標注圖片,獲取json文件
古人有句話:兵馬未動糧草先行,而對深度學習來說,糧草毫無疑問指的是訓練的數據,畢竟我們最終的模型都是依靠數據來喂養出來的🐶!因此選擇一個趁手的標注工具很重要,此處我推薦使用labelme
,標注起來相當方便。
下邊我簡單說一下lableme
的安裝方法(此處建議使用Anconda來實現環境隔離)。
-
安裝Ancodna環境,
執行如下命令:
conda create --name=labelme python=2.7(這一步python=*選擇自己的Python版本) activate labelme
-
安裝軟件與依賴
conda install pyqt pip install labelme
-
啟動與使用
activate labelme labelme
啟動完成之后可以看到如下界面:
標注的時候,將物體用線條框起來即可,例如:
1.2 轉換json,獲取png圖片
在圖像標注完成之后,在我們對應設置的文件夾下有許多json,這些json文件記錄了所標注圖片的位置以及圖片內容等信息,根據這些信息我們可以轉換成訓練所需要的mask圖(此處是png格式的圖片)。
雖然labelme
中包含labelme_json_to_dataset
來幫助我們將json圖片轉成png圖片,但是該命令有一個巨大的缺點就是無法實現批量轉換,因此需要我們自己寫一個批量轉換的腳本來輔助轉換。
一個簡單的轉換腳本如下:
import os
#path = 'C:/Users/tj/Desktop/dd' # path為labelme標注后的.json文件存放的路徑
path = 'C:\\Users\\Administrator\\Desktop\\第五次數據集擴充\\labels'
json_file = os.listdir(path)
for file in json_file:
if(file.split('.')[1]=='json'):
os.system("labelme_json_to_dataset %s" % (path + '/' + file)) #
# C:/soft/ev4/venv/Scripts/labelme_json_to_dataset.exe 為labelme_json_to_dataset.exe的路徑 path + '/' + file 為讀取.json路徑
print(path + '/' + file)
通過該腳本每一個json文件都會生成一個以其名字命名的文件夾。
進入該文件我們可以看到有如下四個文件:
img.png
lable.png
label_names.txt
label_viz.png
其中第二個文件使我們所需要的用於訓練的文件,因此我們需要將該文件整合重命名成其原來json文件的文件名(主要原因是保證和原圖的文件名保持一致,便於后續訓練)。
從文件夾中提取圖片並重命名,我也簡單寫了一個腳本,可以用於參考,具體內容如下:
import os
path = 'c:\\Users\\Administrator\\Desktop\\temp\\'
output='c:\\Users\\Administrator\\Desktop\\output\\'
fileDirs=os.listdir(path)
for fileDir in fileDirs:
file=path+fileDir+"\\label.png"
if(os.path.exists(file)):
# 輸出的文件直接以上層文件夾命名
end= len(fileDir);
fileName=fileDir[:end-5]
os.rename(file,output+fileName+".png")
此處處理完成我們便會的到一系列的mask圖片,此時我們便可以着手數據集的制作。
1.3 制作數據集
正如前邊所說,我們在制作數據集的時候仿照的是pascal voc 2012的數據集,因此需要創建預期類似文件夾結構。
- 我們首先在
models/research/deeplab/datasets
文件夾下為自己的訓練集創建一個目錄,目錄名稱即自己的訓練集名稱。執行如下命令:
cd ~/models/research/deeplab/datasets
mkdir mydataset
cd mydataset
- 創建與voc數據集類似的文件夾
# 存放mask文件
mkdir SegmentationClassRaw
# 存放原圖
mkdir JPEGImages
# 存放數據集描述文件
mkdir Segmentation
# 存放預訓練權重,如不需要預訓練權重可不創建
mkdir tf_initial_checkpoint
# 訓練權重保存目錄
mkdir train_logs
# 評估以及測試結果的生成目錄
mkdir vis
# 存放tfrecorde
-
將訓練數據放到指定文件夾中:
- SegmentationClassRaw:存放mask文件,也就是前邊我們所轉換提取的png圖片
- JPEGImages:存放訓練集、驗證集以及測試集的原始圖片
- Segmentation:存放數據集描述文件,包含三個文件
train.txt
、trainval.txt
、val.txt
- train.txt:記錄訓練集的圖片名稱
- trainval.txt:該文件中所記錄的內容,后續既會被當做訓練集來訓練,后續也會被當做驗證集來做驗證
- val.txt用以記錄驗證集的圖片名稱
-
轉換成tfrecorde文件。
在
dataset
目錄下,執行如下命令:python3 "build_voc2012_data.py" \ --image_folder="${IMAGE_FOLDER}" \ --semantic_segmentation_folder="${SEMANTIC_SEG_FOLDER}" \ --list_folder="${LIST_FOLDER}" \ --image_format="jpg" \ --output_dir="${OUTPUT_DIR}"
執行成功后,會在tfrecorde目錄下出現如下文件,證明轉換成功:
代碼修改
在models/research/deeplab/datasets
目錄下:
- 在
remove_gt_colormap.py
修改的內容如下:
51行左右,
old_raw_pic=np.array(Image.open(filename))
#原來像素比為0:1:2:3乘以50之后變成0:50:100:150
raw_pic=old_raw_pic*50
return raw_pic
- 在
data_generator.py
中修改的內容:
104行左右
# has changed 增加數據集種類,以及訓練驗證集合的數量,修改物體類別3+1+1
_MYDATASET = DatasetDescriptor(
splits_to_sizes={
'train':392,
'trainval':98,
'val':5,
},
num_classes=5, # classes+label+ignore_label
ignore_label=255,
)
#has changed
_DATASETS_INFORMATION = {
'cityscapes': _CITYSCAPES_INFORMATION,
'pascal_voc_seg': _PASCAL_VOC_SEG_INFORMATION,
'ade20k': _ADE20K_INFORMATION,
'mydataset':_MYDATASET,
}
在models/research/deeplab/utils
下
- 在
get_dataset_colormap.py
文件中
在第41行左右,增加訓練種類
# has changed
_MYDATASET='mydataset'
在388行左右,直接使用pascal的colormap
#has changed
elif dataset == _MYDATASET:
return create_pascal_label_colormap()
- 在
train_utils.py
中修改的內容
153行左右,進行訓練權重的修改。具體修改參考https://blog.csdn.net/jairana/article/details/83900226
# has changed
ignore_weight = 0
label0_weight = 1 # 對應background,mask中灰度值0
label1_weight = 10 # 對應a,mask中灰度值1
label2_weight = 10 # 對應b,mask中灰度值2
label3_weight = 10 # 對應c,mask中灰度值為3
not_ignore_mask = tf.to_float(tf.equal(scaled_labels, 0)) * label0_weight + \
tf.to_float(tf.equal(scaled_labels, 1)) * label1_weight + \
tf.to_float(tf.equal(scaled_labels, 2)) * label2_weight + \
tf.to_float(tf.equal(scaled_labels, 3)) * label3_weight + \
tf.to_float(tf.equal(scaled_labels, ignore_label)) * ignore_weight
tf.losses.softmax_cross_entropy(
train_labels,
tf.reshape(logits, shape=[-1, num_classes]),
weights=not_ignore_mask,
scope=loss_scope)
# end change
228行,排除列表中增加logits
exclude_list = ['global_step','logits']
在目錄models/research/deeplab/deprecated
下
segmentation_dataset.py
文件中
在90行,增加數據類別
#has changed
_MYDATASET= DatasetDescriptor(
splits_to_sizes={
'train':392,
'trainval':98,
'val':5,
},
num_classes=5,
ignore_label=255,#background、ignore_label、ignore_label,即label數+2
)
在128行左右,注冊新數據集
_DATASETS_INFORMATION = {
'cityscapes': _CITYSCAPES_INFORMATION,
'pascal_voc_seg': _PASCAL_VOC_SEG_INFORMATION,
'ade20k': _ADE20K_INFORMATION,
# has changed
'mydataset':_MYDATASET
}
在models/research/deeplab/train.py
目錄下
158行左右,修改兩個參數(使用所有的預訓練權重,除了logits,因為如果是自己的數據集,對應的classes不同(這個我們前面已經設置不加載logits),可設置initialize_last_layer=False和last_layers_contain_logits_only=True),可參考https://blog.csdn.net/u011974639/article/details/80948990
# has changed
flags.DEFINE_boolean('initialize_last_layer',False,
'Initialize the last layer.')
flags.DEFINE_boolean('last_layers_contain_logits_only', True,
'Only consider logits as last layers or not.')
訓練與驗證
訓練
執行如下命令開始進行訓練:
python train.py \
--logtostderr \
--training_number_of_steps=5000 \
--train_split="train" \
--model_variant="xception_65" \
--atrous_rates=6 \
--atrous_rates=12 \
--atrous_rates=18 \
--output_stride=16 \
--decoder_output_stride=4 \
--train_crop_size="513,513" \
--train_batch_size=12 \
--dataset="mydataset" \
--tf_initial_checkpoint='init_models/deeplabv3_pascal_train_aug/model.ckpt' \
--train_logdir='datasets/mydataset/train_logs' \
--dataset_dir='datasets/mydataset/tfrecord'
驗證
python eval.py \
--logtostderr \
--eval_split="val" \
--model_variant="xception_65" \
--atrous_rates=6 \
--atrous_rates=12 \
--atrous_rates=18 \
--output_stride=16 \
--decoder_output_stride=4 \
--eval_crop_size="1217,1921" \
--checkpoint_dir='models/research/deeplab/datasets/mydataset/train_logs' \
--eval_logdir='datasets/mydataset/eval' \
--dataset_dir='datasets/mydataset/tfrecord' \
--max_number_of_evaluations=1
遇到的如果問題與解決方案
-
無法找到slim。
解決方法:進入
models/research
目錄下執行export PYTHONPATH=$PYTHONPATH:`pwd`:`pwd`/slim:`pwd`/deeplab\
-
數據格式不支持,檢查是否注冊了自己的數據格式