第28回目の今回は、第27回の記事で紹介したDense Trajectoriesでも採用されている、Histogram of Optical Flow(HOF)、Motion Boundary Histograms(MBH)について説明します。

HOF

HOF(参考文献:Ivan Laptev, Marcin Marszałek, Cordelia Schmid, and Benjamin Rozenfeld, “Learning realistic human actions from movies,” in CVPR2008)は、まず時刻tと時刻t+1の画像からOptical Flow(画素の動き)を求めます。そして、画像をグリッド状に分割し、各グリッド内のOptical Flowの方向をヒストグラム化します。図1の例は、左手を含むグリッド内の動きをヒストグラム化した例です。

図1 HOF特徴の概要

図1 HOF特徴の概要

このHOF特徴量とnon-linear SVMなどの機械学習を組み合わせることで、図2のように映像中の動作(Kiss, Stand up, Sit downなど)を自動で推定することができます。

図2 HOF特徴を用いた動作認識結

図2 HOF特徴を用いた動作認識結果

MBH

MBH(参考文献:N. Dalal, B. Triggs, and C. Schmid, “Human detection using oriented histograms of flow and appearance,” in ECCV 2006)はHOFと異なり、Optical Flowを微分し、ヒストグラム化します(図3)。動画像中のOptical Flowは、人や車などの動き以外に、カメラの動きも含みます。人の動きによるOptical Flowは体の部位毎に異なるのに対し、カメラの動きによって生じるOptical Flowは、画面全体で均一になります。MBH特徴では、Optical Flowを微分することで、Optical Flowが変化する境界部のみが抽出されるため、このカメラモーションによる均一なOptical Flowの影響を軽減することができます。

図3 MBH特徴の概要

図3 MBH特徴の概要

HOF、MBHを用いても十分な動作認識の精度を得ることは難しく、まだまだ改良が必要ですが、動画像中の動作・行動認識の基礎技術ですので覚えておくと良いと思います。

次回は、ディープラーニング(Deep Learning:深層学習)を用いた動作認識について紹介します!