第47回目の今回は、教師あり機械学習、ディープラーニング(Deep Learning:深層学習)で必須となるデータセット(教師データ)について紹介します。認識性能の向上には、教師データが非常に重要となってきます。認識したい対象に合わせて教師データを準備するようにしましょう。

切り出し済みの画像

最もシンプルな教師データとして、「切り出し済みの画像」があげられます(図1)。画像の中に認識対象の物体が含まれる画像であるため、同様な画像を入力した際に画像の中に何が写っているか、0〜9のどの数字が書かれているか、山や海など、どのようなシーンで撮影されたか、などを分類する問題で活用できます。

図1 切り出し済みの教師データ

図1 切り出し済みの教師データ

物体の外接矩形

図2は、カメラで撮影した画像内の認識対象の物体の領域を、外接矩形(Bounding Box)でアノテーションしたデータセットです。切り出し済みのものと異なり、物体間の位置関係や大小関係といったcontextを取り入れることができます。

図2 外接矩形の教師データ

図2 外接矩形の教師データ

骨格データ

前回紹介したOpenPoseのような人物の姿勢推定を実現するためには、図3のような関節位置をアノテーションしたデータセットが必要となります。

図3 関節位置をアノテーションした教師データ

図3 関節位置をアノテーションした教師データ

領域分割

Semantic Image Segmentationでは図4に示すような教師データが必要になります。各画素がどの領域に属すかをラベルとして付与する必要があります。

図4 領域分割用の教師データ

図4 領域分割用の教師データ

公開されているデータセット

世界の研究機関がさまざまなデータセットを公開しているので、いくつかご紹介します。

MNIST
手書き文字のデータセットで、一文字一文字が切り出されています。

CIFAR-10 dataset
10クラス(air plane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)の物体識別用のデータセットで、切り出されたデータセットです。

PASCAL-Context Dataset 
PASCAL VOCデータセットに領域分割のアノテーションを追加したデータセットです。画像内の物体が存在する領域の外接矩形、および領域分割を真値として与えています。

MS COCO 
物体認識、領域分割などのための統合的なデータセットです。画像がどのような画像であるかを説明する5つのキャプションも含まれます。

MPII Human Pose Dataset 
人物の姿勢推定のためのデータセットです。

You Tube-8M 
800万本の動画からなるデータセットです。

You Tube-BoundingBoxes 
動画像中の物体認識、トラッキングのためのデータセットです。

MPI Dynamic FAUST 
人物の3次元スキャンデータの時系列データセットです。

この他にも、公開されているものは色々とあります。ただし、製品化の際はライセンス条項を確認する必要があります。商用利用不可の場合は、独自でデータセットを構築することが必要になります。
実際に使うカメラで撮影した画像や映像にアノテーションすることで、性能向上にも繋がります。そのためライセンス的に問題が無い場合でも、必要に応じて独自データセットを構築すると良いでしょう。機械学習やDeep Learningの普及に伴って、そのようなアウトソーシングを活用することも可能になってきています。
Global Walkersでもアノテーションサービス『Annotation One』を提供していますので、ご興味のある方はぜひ『Annotation One』特設ページをご覧ください。

次回は、世界の研究機関が公開している様々なデータセットをもう少し詳しく紹介します!