Kinectの音声認識を使ってWebブラウザを操作するサンプル
人間の動きを捉えることでよく知られるKinectですが、音声認識の精度も高いことをご存じですか?例えば、ゲーム用のKinect for Xbox 360では、「Xbox」と声をかけることで音声認識モードになり、ジェスチャーを使わなくても、メニューの操作やゲーム内で対応している操作、また本体の電源を切ることなどができます。
Kinect for Windows SDK 1.5も、日本語の音声認識に対応しています。今回は、その音声認識を使った2つのサンプルを紹介します。
Kinectに音声認識させる
まずは「音声認識」自体のサンプルを解説していきます。
実際に音声認識を実行した動画は以下になります。あらかじめ登録しておいた言葉を喋ると、TextBlockに喋った言葉が表示されます。
音声認識の動画
サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。
プロジェクトの作成
VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。
次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_SentenceRecognize」という名前を付けています。
ツールボックスからデザイン画面上にTextBlockコントロールを1個配置します。名前はTextBlock1です。
XAMLコードはリスト1、デザイン画面は図1のようなります。
リスト1 (MainWindow.xaml)
(1)TextBlockのプロパティから[テキスト]パネルにある、TextWrappingプロパティにWrapと指定します。文字の回り込みを可能としておきます。今回の例では長い文章を登録していませんので、必須ではありません。
<Window x:Class="MainWindow" xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation" xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml" Title="音声認識" Height="238" Width="520"> <Grid Height="203"> <TextBlock Height="141" HorizontalAlignment="Left" Margin="12,36,0,0" Name="TextBlock1" Text="" VerticalAlignment="Top" Width="463" FontSize="32" FontWeight="Bold" TextWrapping="Wrap" /> ■(1) </Grid> </Window>
図1:TextBlockコントロールを1個配置した(クリックで拡大) |
参照の追加
VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speechの2つです。.NETタブ内に表示されていないDLLファイルは、「参照」タブからDLLファイルを指定します。
Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。
Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。
次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。
ロジックコードを記述する
リスト2 (MainWindow.xaml.vb)
Option Strict On Imports Microsoft.Kinect
音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。
Imports Microsoft.Speech.AudioFormat
音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。
Imports Microsoft.Speech.Recognition Imports System.IO Class MainWindow Dim kinect As KinectSensor
音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。
Dim engine As SpeechRecognitionEngine
ウィンドウが読み込まれた時の処理
Kinectが接続されているかどうかを確認し、接続されていない場合は警告メッセージを出して処理を抜けます。
Choicesクラスは、要素を構成するための代替項目の一覧を表すクラスで、GrammarBuilder オブジェクトからのみ直接使用されます。認識させる言葉をAddメソッドで登録します。
GrammarBuilderクラスは、単純な入力から複雑な Grammar(構文情報を取得管理するクラス)を構築するためのメカニズムを提供するクラスで、登録された言葉の構文(文法)設定を行い、SpeechRecognitionEngineへと設定します。Appendメソッドで、登録した言葉を GrammarBuilder オブジェクトとして現在の GrammarBuilder に追加します。
文法のチェックされた言葉(builder)で初期化された、新しいGrammerクラスのインスタンス、myGrammerオブジェクトを作成します。Grammerクラスは、構文情報を取得および管理するためにランタイムをサポートするクラスです。
次に、SpeechRecognitionEngineクラスの新しいインスタンスengineオブジェクトを作成します。
SpeechRecognitionEngineクラスのLoadGrammerメソッドで、Grammar によって指定されたとおりに、特定の構文を同期的に読み込みます。
Kinectを開始します。
Kinectの音声インターフェースは、Kinect.AudioSourceで提供されます。Startメソッドで音声入力を開始します。入力ストリームを取得し、SpeechRecognitionEngine クラスのSetInputToDefaultAudioDeviceメソッドで、SpeechRecognitionEngine の現在のインスタンスに、システム既定のオーディオ入力を割り当てます。
複数の音声認識が可能なように、RecognizeMode.Multipleを指定して、RecognizeAsyncメソッドで非同期音声認識を開始します。
言葉が認識された際には、AddHandlerステートメントで言葉を認識した際に発生するSpeechRecognizedイベントに、イベントハンドラを指定します。言葉を認識した際には、TextBlock内にその言葉を表示します。Confidenceプロパティで音声認識の信頼度を設定します。-1が低、0が標準、1が高信頼度となります。-1を指定するとどんな言葉でも反応する恐れがあります。1を指定するとなかなか認識してくれません。今回は信頼度が0.5より大きい場合に言葉を表示するよう指定しています。
Private Sub MainWindow_Loaded(sender As Object, e As System.Windows.RoutedEventArgs) Handles Me.Loaded If KinectSensor.KinectSensors.Count = 0 Then MessageBox.Show("Kinectが接続されておりません。") Exit Sub End If Dim sentence As Choices = New Choices With sentence .Add("おはようございます") .Add("こんにちわ") .Add("こんばんわ") .Add("おやすみなさい") .Add("何か御用ですか") .Add("どこに行きますか") End With Dim builder As GrammarBuilder = New GrammarBuilder builder.Append(sentence) Dim myGrammer As Grammar = New Grammar(builder) engine = New SpeechRecognitionEngine engine.LoadGrammar(myGrammer) AddHandler engine.SpeechRecognized, Sub(speechSender As Object, speechArgs As SpeechRecognizedEventArgs) Dim confidence As Single = speechArgs.Result.Confidence If confidence > 0.5 Then TextBlock1.Text = speechArgs.Result.Text End If End Sub kinect = KinectSensor.KinectSensors(0) kinect.Start() Dim audio As KinectAudioSource = kinect.AudioSource Using s As Stream = audio.Start() engine.SetInputToDefaultAudioDevice() engine.RecognizeAsync(RecognizeMode.Multiple) End Using End Sub
ウィンドウが閉じられる時に発生するイベント
Kinectセンサーが動作している時は、StopメソッドでKinectセンサーを停止し、音声認識も停止します。最後にDisposeメソッドでリソースを解放します。
Private Sub MainWindow_Closing(sender As Object, e As System.ComponentModel.CancelEventArgs) Handles Me.Closing If kinect Is Nothing = False Then If kinect.IsRunning = True Then kinect.Stop() engine.RecognizeAsyncStop() kinect.Dispose() End If End If End Sub End Class
では、次に音声認識を使ってWebブラウザを操作するサンプルを紹介します。
Kinectに音声認識させるサンプルプログラム
Kinectの音声認識を使ってWebブラウザを操作するサンプル
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- 声で選んだアイテムをプレイヤーの身体に装着・連動させるKinectサンプル
- Kinectを使った、音声によるデータ保存と検索のサンプル
- 人体の連続した動作を音声でキャプチャするKinectのサンプルプログラム
- Kinectを使ったバーチャル試着室で着せ替えシミュレーション
- Kinectの音声認識を使って、プレイヤーを分離、結合させるデモを試してみる
- Kinect v2の音声認識で「仮面」を選んで変身してみる
- Kinectを使って、自分の手のひらに小さな分身を出現させてみる
- Kinect v2を使った「じゃんけんゲーム」を作る
- KinectButtonを動的に作成して、ジェスチャーで文字を表示させるサンプル
- Kinect v2のジェスチャーでBing Mapsを未来的に直感操作する