![]() |
米Intelは、話し手の唇の動きを読み取ることができる音声認識ソフト「Audio Visual Speech Recognition」(AVSR)をリリースした。
こうしたアプリケーション向上の1つの手法が、Intelのようにビジュアルな信号を音声認識手段に組み込むこと。例えばMicrosoft Researchでは、音声コマンドと手の動きを組み合わせてファイルをスクロールしたり ウィンドウを動かすアプリケーションの試作品「GWindows」を開発している。
GWindowsでは、TVモニタに設置したビデオカメラが、手やポインタなどスクリーンの20インチ以内で動く物体をとらえる。このアプリケーションでは手の動き(あるいはポインタの動き)をコンピュータのコマン ドとして解釈し、例えば指をウィンドウの上に置いた後に左に動かすと、ウィンドウが左に移動する。音声で 「scroll」などのコマンドが与えられると、コンピュータは指と音声コマンドを組み合わせて下にスクロールす る。特別な手袋などは必要としない。(ZDNet)
Visual Interactivity :Audio-Visual Speech
Ara V Nefian, Lu Hong Liang, Xiao Xing Liu, Xiaobo Pi
The increase in the number of multimedia applications that require robust speech recognition systems determined a large interest in the study of audio-visual speech recognition (AVSR) systems. The use of visual features in AVSR is justified by both the audio and visual modality of the speech generation and the need for features that are invariant to acoustic noise perturbation. The speaker independent audio-visual continuous speech recognition system relies on a robust set of visual features obtained from the accurate detection and tracking of the mouth region. Further, the visual and acoustic observation sequences are integrated using a coupled hidden Markov model (CHMM) shown in Figure 1. The statistical properties of the CHMM can model the audio and visual state asynchrony while preserving their natural correlation over time. The experimental results show that the current system tested on the XM2VTS database (295 speakers) reduces by over 55% the error rate of the audio only speech recognition system at SNR of 0db (Figure 2).
Figure 1. A coupled HMM used in audio-visual integration
Figure 2. The word error rate (WER) at different signal to noise ratio (SNR) levels for audio-only, video-only and audio-visual speech recognition.
Figure 3. Speech recognition examples for an audio-visual sequence captured in clean (top) and noisy (bottom, SNR = 5db) acoustic conditions (mpeg files).