第10回目の今回は、前回に引き続きコンピュータビジョンの要素技術と応用範囲について紹介します。

前回は、コンピュータビジョンの応用事例を大まかに以下のように分類し、1番目から3番目について紹介しました。今回は、残りの4番目から7番目までを紹介していきます。

1. ロボット
2. セキュリティ
3. 自動車・高度道路交通システム(ITS:Intelligent Transport System)
4. 工業用画像処理(FA:Factory Automation)
5. 医療画像処理
6. 人の生活支援(家電、Webサービス、スマートフォンアプリなど)
7. エンターテイメント(ゲーム、映画など)

コンピュータビジョンの応用範囲

4:工場の自動化(FA:Factory Automation)
■食品の異物自動選別
細かい大量の食品をカメラで撮影し、色彩情報等により異物か否かを判定します。異物と判定された場合は、エアガンの風圧により自動で除去されます。


120発のエアガンとカメラで食品の異物を除去する色彩選別機

■半導体の不良品検査
目に見えない程微細な半導体を、走査型電子顕微鏡(SEM)により撮影して、SEMの画像を処理することで不良品を自動で検出することができます。

5:医療
CTやMRIにより人体内部を可視化する技術や、撮影した画像から患部を見つける技術などが研究開発されています。さらに最近では、病気の診断だけでなく、薬剤の研究開発のために細胞の分裂過程を追跡する技術も研究されています。

6:人の生活支援(家電、Webサービス・スマートフォンアプリなど)
■テレビ、レコーダー
最近のテレビやレコーダーには、低解像度の映像を、高精細な画像に変換し再生することができるものがあります。例えば、ハイビジョン画質の映像(横1080画素×縦720画素)を、フルハイビジョン画質の映像(横1920画素×縦1080画素)に変換して再生できます。

■スキャナー
スキャナーには、印刷物を画像データとして保存するだけでなく、文字を読み取ってくれるものがあります。文字を読み取って、テキスト情報として電子化することで、文書の検索などに役立ちます。

■インターネット上の画像・動画の検索
キーワードを元に画像を検索するだけでなく、画像を与えると類似した画像を探してくれるサービスがあります。具体的には、Googleの画像検索で、テキスト入力欄の右側にカメラのマークがあり、それをクリックすることで画像を入力として類似した画像を探すことができます。

■Evernote
Evernoteでは、文字を含む画像をアップロードするとサーバ側で文字認識をしてくれ、画像中の文字をテキストで検索することができます。

■パノラマ画像生成
スマートフォンのカメラアプリには、パノラマ撮影モードが搭載されています。カメラを動かし、複数枚の画像を撮影して、それらを結合することで視野の広い画像(パノラマ画像)を生成することができます。

■Hyperlapse
SIGGRAPH 2014で発表されたMicrosoft researchの”First-person Hyper-lapse Videos”という論文があります。これは、GoProなどで撮影した映像を、過度な動きを抑制しつつ、早送りした映像に変換する手法です。この手法では、Structure from motionという技術を用いてカメラの3次元的な動きを計算し、それをもとに過度な動きを抑制しています。


First-person Hyperlapse Videos

InstagramがHyperlapseというiPhoneアプリをリリースしています。このアプリでは、iPhoneに搭載されているジャイロセンサを用いてカメラの動きを求めることで、補正処理を高速化しています。

■Adobe Photoshop
Adobe Photoshopには、物体を消す、背景を消す、色調を変える、写真を合成する、顔や体の輪郭を修正する、といった様々な機能が組み込まれています。デザイン関係の職種では必須のソフトです。

■Microsoft Office
背景を消す機能は、PowerPointにも入っています。写真をダブルクリックして、背景の削除というボタンを押すと、画像中央付近の物体が前景として自動で切り出されます。さらに保持する領域(前景)と削除する領域(背景)を手動で調整することで、所望の領域をきれいに切り出せます。

7:ゲーム・エンターテイメント
■映画、テレビの撮影
映画「マトリックス」では、時間の流れが遅くなり、その瞬間の登場人物をいろいろな方向から映した映像が話題となりました。バレットタイム、タイムスライスと呼ばれる技術です。俳優の周りに多数のカメラを配置し、それらのカメラで連続的に撮影することで、俳優の動きはスローモーションで、カメラワークでは高速な映像を生成しています。複数のカメラで同時に撮影することで、被写体が静止した状態でカメラアングルが動く映像が生成できます。

スポーツ映像では、「EyeVision」という技術があります。アメリカンフットボールのスタジアムに複数のパンチルトカメラを設置し、それらのカメラを協調制御することで同一の被写体を同時に撮影します。そして、ある瞬間の選手(ボールをキャッチした瞬間など)を様々なカメラアングルで見ることができる映像を生成します。

他には、マッチムーブを用いたクロマキー合成があります。クロマキー合成とは、ブルースクリーンのスタジオで撮影した後に、背景を合成する技術です。カメラが静止していれば簡単なのですが、カメラが動いている場合は、マッチムーブという技術が用いられます。

■プロジェクションマッピング
アートアクアリウム2015では金魚を追跡し、金魚の動きに合わせて映像をプロジェクションする水槽が展示されました(注:センサにカメラが利用されているかは不明です)。また、動く顔にプロジェクションマッピングを行う「OMOTE」という作品もあります。顔をレーザーで3次元スキャンし、さらに顔の動きを追跡することで、メイクなどのパターンを動く顔に投影する技術です。レーザーで3次元スキャンする代わりに、ToFカメラやステレオカメラを使っても同様のことが実現可能でしょう。


OMOTE REAL TIME FACE TRACKING & PROJECTION MAPPING + on Vimeo

■拡張現実感(AR:Augmented Reality)
ARは、カメラ映像をリアルタイムで表示しているディスプレイ上に、現実には存在しないものを、あたかもそこにあるかのように重畳表示する技術です。例えば、マーカーが印刷された平面をスマートフォンのカメラを通して見ることで、実際には存在しない恐竜を平面上に出現させることができます。技術的には、マーカーを用いて平面の3次元的な姿勢と、平面に対するカメラの位置を求め、その平面上に乗るように恐竜の位置と姿勢を計算します。


Augmented Reality Tutorial No. 26: Unity3D Vuforia for Dinosaur Control with Arrow Keys

■Xbox Kinect
Kinectは、Microsoftが開発した有名なセンサです。十字キー、ボタンといったコントローラを使わず、Kinectでプレーヤーの手足の動きを計測してゲームを楽しむことができます。原理を簡単に説明すると、目に見えない波長帯の光を照射し、カメラで撮影して各画素の3Dデータを計測します。その3Dデータを処理することで、人の手足の位置や動きを求め、その動きを使ってゲームをプレイすることができるというものです。


New Xbox One: Kinect-Game|Life-WIRED Exclusive

前回と今回で、コンピュータビジョンがすでに様々な分野で活用されていることをご理解いただけたでしょうか?
次回からは、ハードウェアの構成について解説します!