如何使用Mask-RCNN在實例分割應用中克服過擬合

發布時間：2022-01-05 19:19:10 來源：億速云閱讀：176 作者：柒染欄目：大數據

如何使用Mask-RCNN在實例分割應用中克服過擬合，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

導讀

只使用1349張圖像訓練Mask-RCNN，有代碼。

介紹

計算機視覺的進步帶來了許多有前途的應用，如自動駕駛汽車或醫療診斷。在這些任務中，我們依靠機器的能力來識別物體。

我們經常看到的與目標識別相關的任務有4個：分類和定位、目標檢測、語義分割和實例分割。

如何使用Mask-RCNN在實例分割應用中克服過擬合

在分類和定位中，我們感興趣的是為圖像中目標的分配類標簽，并在目標周圍繪制一個包圍框。在這個任務中，要檢測的目標數量是固定的。

物體檢測不同于分類和定位，因為這里我們沒有預先假設圖像中物體的數量。我們從一組固定的目標類別開始，我們的目標是分配類標簽，并在每次這些類別中的一個目標出現在圖像中時繪制邊界框。

在語義分割中，我們為每個圖像像素分配一個類標簽：所有屬于草的像素被標記為“grass”，屬于羊的像素被標記為“sheep”。值得注意的是，例如，這個任務不會對兩只羊產生區別。

我們的任務是實例分割，它建立在目標檢測和語義分割之上。在目標檢測中，我們的目標是在預定義的類別中標記和定位目標的所有實例。但是，我們沒有為檢測到的目標生成邊界框，而是進一步識別哪些像素屬于該目標，就像語義分割一樣。與語義分割不同的是，實例分割為每個目標實例繪制一個單獨的掩碼，而語義分割將為同一類的所有實例使用相同的掩碼。

在本文中，我們將在一個很小的Pascal VOC數據集上訓練一個實例分割模型，其中只有1349張圖像用于訓練，100張圖像用于測試。這里的主要挑戰是在不使用外部數據的情況下防止模型過擬合。

數據處理

標注采用COCO格式，因此我們可以使用pycocotools中的函數來檢索類標簽和掩碼。在這個數據集中，共有20個類別。

如何使用Mask-RCNN在實例分割應用中克服過擬合

下面是一些訓練圖像和相關mask的可視化顯示。mask的不同陰影表示同一目標類別的多個實例的不同掩碼。

如何使用Mask-RCNN在實例分割應用中克服過擬合

圖像的大小和長寬比各不相同，因此在將圖像輸入模型之前，我們調整每個圖像的尺寸500x500。當圖像尺寸小于500時，我們對圖像進行優化，使最大邊的長度為500，并添加必要的零以獲得正方形圖像。

如何使用Mask-RCNN在實例分割應用中克服過擬合

為了使模型能夠很好地泛化，特別是在這樣一個有限的數據集上，數據增強是克服過擬合的關鍵。對于每一個圖像，以0.5的概率水平翻轉，以0.9到1倍的尺度進行隨機剪裁，以0.5的概率進行高斯模糊，標準差為隨機，對比度隨機調整尺度為0.75和1.5之間，亮度隨機調整尺度在0.8和1.2之間，以及一系列隨機仿射變換如縮放、平移、旋轉，剪切。

Mask-RCNN

我們使用matterport實現的Mask-RCNN進行訓練。雖然結果可能會很好看，但我們不會用MS COCO的預訓練權重來展示我們如何只用1349張訓練圖像就能得到好的結果。

Mask-RCNN是在2017年Mask-RCNN論文中提出的，是同一作者對Faster-RCNN的擴展。Faster-RCNN被廣泛應用于目標檢測，模型在被檢測物體周圍生成包圍盒。Mask-RCNN進一步生成了目標的mask 。

我將在下面簡要介紹模型體系結構。

如何使用Mask-RCNN在實例分割應用中克服過擬合

首先，我們使用一個主干模型從輸入圖像中提取相關的特征。在這里，我們使用ResNet101架構作為骨干。圖像由張量(500,500,3)轉換為特征圖(32,32,2048)。

然后將之前獲得的特征輸入到一個區域建議網絡(RPN)中。RPN掃描feature map的區域，稱為anchors，并嘗試確定包含目標的區域。這些anchor的尺寸和縱橫比各不相同。RPN為每個anchor分配一個類別：前景(正樣本anchor)或背景(負樣本anchor)。中性anchor是指不影響訓練的anchor。

如何使用Mask-RCNN在實例分割應用中克服過擬合