第38回目の今回は、カメラで撮影した映像から、音を復元する技術を紹介します。
「ビジュアルマイクロフォン(Visual microphone)」と呼ばれる、スパイ映画に出てきそうな技術が「SIGGRAPH 2014」で発表されました。映像のみから音声を復元した結果が動画1です。


動画1 映像のみから音声を復元

ビジュアルマイクロフォン技術の概要

ビジュアルマイクロフォンの概要は図1、図2のとおりです。音の振動が物体(ポテトチップスの袋など)に伝わることで、物の表面がごく僅かに振動します。その僅かな振動を映像から抽出することにより、ポテトチップスの袋の映像から音声を復元するという仕組みです。この論文では、ポテトチップスの袋の他に、グラスに入った水、観葉植物の葉、箱ティッシュなどから音を復元することに成功しています。

図1 ビジュアルマイクロフォンの概要1

図1 ビジュアルマイクロフォンの概要1

図2 ビジュアルマイクロフォンの概要2

図2 ビジュアルマイクロフォンの概要2

音は空気の振動です。音楽のコンサートなどで体感したことがあると思いますが、音の振動は物を震わせます。物の振動を記録するというのが、マイクロフォンの原理です。ビジュアルマイクロフォンも物の振動から音を抽出するという意味では同じですが、肉眼ではまったく見えないほどの微細な振動を、映像のみから抽出して音を復元します。初めて論文を目にした時はかなり衝撃的でした。

ビジュアルマイクロフォン技術の特徴

論文によると、音による振動はマイクロメートル(1/1000ミリ)単位です。映像上では数千分の1ピクセル分の微小な変動でしかありません。本ブログの第18回「カメラを用いた3次元計測 (3. サブピクセル推定)」で紹介したサブピクセル推定技術では、十分の1、どんなに頑張っても数十分の1ピクセルの精度が限界です。しかしこの論文では、画像全体のわずかな色の変化から微細な動きを抽出する手法を用いて、音を復元することに成功しています。

スパイ映画に登場する夢のような技術ですが、音の高周波成分を抽出するためには、1秒に1000フレーム以上を撮影できるハイスピードカメラが必要です。しかしこの論文では、一般的な民生用カメラで撮影した動画から音を再現することを試みており、こちらも興味深い点です。

民生用カメラによるビジュアルマイクロフォン

ハンディカムなどの民生用カメラでは、最大でも120fps程度までしか撮影できません。この論文の興味深いもう1つのアイデアは、多くのCMOSイメージセンサで採用されているローリングシャッターの仕組みを利用するということです。

CMOSイメージセンサは、高解像度化の難しいCCDイメージセンサに取って代わって、ほとんどのカメラ機器で使われています。そして多くのCMOSイメージセンサは、グローバルシャッターではなくローリングシャッターという方式を採用しています。グローバルシャッターが、全画素同じタイミングでシャッターを切るのに対し、ローリングシャッターでは画像の各行ごとに順次シャッターを切ります。つまり、行ごとに僅かに撮像タイミングが異なるわけです。

ローリングシャッターでは、各行ごとに撮像タイミングが異なるため、動いている物体が歪んで撮像されてしまいます。例えば、直線の物体が曲線として撮影されてしまいます。このローリングシャッターのデメリットを逆手にとって、撮像タイミングの異なる各行ごとに振動を抽出することで、サンプリングレートを向上させることができるわけです。
この手法により、高速度カメラを用いた場合よりも復元精度は劣るものの、民生用カメラで音を復元することに成功しています。

Computer Visionの技術のうち、今回紹介したビジュアルマイクロフォン技術のように高周波かつ微細な動きを計測する場合は、明らかに人間の目の能力に優っています。

ビジュアルマイクロフォンについて詳しく知りたい方は参考文献[1]を読んで見てください。

次回は、絵画の下に隠された下書きを観ることができる技術を紹介します!


参考文献
[1] DAVIS, A., RUBINSTEIN, M., WADHWA, N., MYSORE, G., DURAND, F., AND FREEMAN, W. T. The visual microphone: Passive recovery of sound from video. ACM Transactions on Graphics (Proc. SIGGRAPH) 33, 4 (2014), 79:1-79:10.