第55回は、2017年に開催されたコンピュータビジョン分野のトップカンファレンス「ICCV2017」でBest Paper Awardを受賞した「Mask R-CNN」[1]を紹介します。Mask R-CNNは、一般物体検出も領域分割もできる優れものです。

領域分割の代表的な研究分野である「Semantic Segmentation」では、複数人が重なっていたとしても人には同一のラベルが付与されるため、人の境界がわからず、何人いるかも求められませんでした。
Mask R-CNNはここからさらに一歩進んだ、各人を分離して領域を求められるInstance segmentationが可能となっています。Semantic segmentation(Category-level segmentation)とInstance segmentationの比較は図1の通りです。

図1 Semantic segmentation(Category-level)とInstance segmentation(出典:https://arxiv.org/pdf/1509.02636v2.pdf)

図1 Semantic segmentation(Category-level)とInstance segmentation
(出典:https://arxiv.org/pdf/1509.02636v2.pdf)

Faster R-CNNとMask R-CNNの比較

Mask R-CNNは、2015年に発表された Faster R-CNN[2]がベースとなっています。Faster R-CNNの概要は図2の通りです。入力画像からConvolutional layersを通って特徴量マップを生成するとともに、Region Proposal Network(RPN)により物体領域候補を生成します。そして、特徴量マップを固定のサイズに圧縮し、最後に全結合層を介して物体領域の座標と物体のカテゴリを推定します。

図2 Faster R-CNNの概要

図2 Faster R-CNNの概要

一方、Mask R-CNNの概要は図3となります。領域分割用のネットワークが加わっていることが大きな違いです。特徴量マップからさらにConvolutional Layersを通って、最終的にマスク領域を推定します。

図3 Mark R-CNNの概要

図3 Mark R-CNNの概要

このMask R-CNNで物体を検出し、その物体の領域を推定した結果が動画1です。詳細を知りたい方は論文を読んでみてください。また、コードが公開されていますので、是非動かしてみてください。


動画1 Mask R-CNNによる物体検出と領域分割結果

次回は、「敵対的生成ネットワーク(GAN:Generative Adversarial Network)」を紹介します!


参考文献
[1] Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, R. Mask R-CNN. In ICCV2017.
[2] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks.” in NIPS2015.