機械学習で必要なデータセット (2)

前回の「機械学習で必要なデータセット(1)」では、教師あり学習で必須となるデータセット(教師データ)について紹介しました。
教師ありのモデル開発、認識精度の向上のためには教師データが極めて重要です。研究・開発の初期段階では公開されているデータセットを活用することができます。

そこで第48回の今回は、世界の研究機関が公開している様々なデータセットをご紹介します。データの種別ごとにカテゴライズして記載していますが、多様なデータを含むものもあるためきれいに分類できていないこともあります。その点はご容赦ください。

1：文字データ

■MNIST
手書き文字のデータセットで、一文字一文字が切り出されています。CC0ライセンスということで商用利用可能です。

■Brno Mobile OCR Dataset
科学論文のデータセットです。商用利用は不可のようです。

■rois-codh/kmnist
崩した手書き数字、漢字のデータセットです。商用利用可能です。

2：一般物体認識

■ImageNet
1400万枚のデータセットで、クラス数(物体の種類)もかなり多いです。各画像には鳥など特定の物体のみが写るように切り出された画像です。商用利用不可です。

■CIFAR-10/CIFAR-100
CIFAR-10は10クラス(air plane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)の物体識別用のデータセットで、各クラス6000枚の画像で構成されています。
CIFAR-100は100クラス、各クラス600枚の画像からなります。ライセンスについての記述が見当たらないため商用利用は避けたほうが良いかもしれません。

3：生物

■The Oxford-IIIT Pet Dataset
ペットの画像のデータセットで、37クラス、各クラス200枚の画像からなります。商用利用可能です。

■iNaturalist
8000種以上の生物を撮影した画像からなるデータセットです。画像数は45万枚におよびます。CC BY-NCという記載もあるため、商用利用は避けたほうが良いかもしれません。

4：ファッション

■Fashion-MNIST
60,000サンプルの訓練セットと 10,000サンプルのテストセットで構成されています。クラス数は10、画像サイズは縦横それぞれ28画素のグレースケールと小さな画像となっています。商用利用可能です。

■iMaterialist Challenge on fashion
100万枚を超えるカラー画像から構成されています。

■Large-scale Fashion(DeepFashion)Database
80万枚以上の画像に対して、50クラス(カテゴリー)、1000種類の属性を付与したものです。商用利用不可です。

※商用利用の可否についても簡単に記載していますが、ライセンスについてはご使用の際に改めて調査をお願い致します。
ここで紹介したデータセットは有用なものばかりですが、実用化に向けた開発では独自でデータセットを構築したほうが良いでしょう。また、公開されたデータセットには含まれないような認識対象の場合は、独自で教師データを作ることが必須です。プロジェクトにあったデータセットを準備するようにしてください。

Global Walkersでもアノテーションサービス『Annotation One』を提供していますので、ご興味のある方はぜひ『Annotation One』特設ページをご覧ください。

次回からは、ディープラーニングを用いた「一般物体認識」について紹介していきます！