Kinectの音声認識を使ってWebブラウザを操作するサンプル

連載 :

2012年7月12日(木)

人間の動きを捉えることでよく知られるKinectですが、音声認識の精度も高いことをご存じですか？例えば、ゲーム用のKinect for Xbox 360では、「Xbox」と声をかけることで音声認識モードになり、ジェスチャーを使わなくても、メニューの操作やゲーム内で対応している操作、また本体の電源を切ることなどができます。

Kinect for Windows SDK 1.5も、日本語の音声認識に対応しています。今回は、その音声認識を使った2つのサンプルを紹介します。

Kinectに音声認識させる

まずは「音声認識」自体のサンプルを解説していきます。

実際に音声認識を実行した動画は以下になります。あらかじめ登録しておいた言葉を喋ると、TextBlockに喋った言葉が表示されます。

音声認識の動画

サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。

プロジェクトの作成

VS 2010のメニューから[ファイル(F)／新規作成(N)／プロジェクト(P)]と選択します。

次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_SentenceRecognize」という名前を付けています。

ツールボックスからデザイン画面上にTextBlockコントロールを1個配置します。名前はTextBlock1です。

XAMLコードはリスト1、デザイン画面は図1のようなります。

リスト1 (MainWindow.xaml)

（１）TextBlockのプロパティから［テキスト］パネルにある、TextWrappingプロパティにWrapと指定します。文字の回り込みを可能としておきます。今回の例では長い文章を登録していませんので、必須ではありません。

1<Window x:Class="MainWindow"
2  xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
3  xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
4  Title="音声認識" Height="238" Width="520">
5  <Grid Height="203">
6    <TextBlock Height="141" HorizontalAlignment="Left" Margin="12,36,0,0" Name="TextBlock1" Text="" VerticalAlignment="Top" Width="463" FontSize="32" FontWeight="Bold" TextWrapping="Wrap" />　■（１）
7  </Grid>
8</Window>

図1：TextBlockコントロールを1個配置した（クリックで拡大）

参照の追加

VS2010のメニューから「プロジェクト(P)／参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speechの2つです。.NETタブ内に表示されていないDLLファイルは、「参照」タブからDLLファイルを指定します。

Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。

Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。

ロジックコードを記述する

リスト2　(MainWindow.xaml.vb)

`1`	`Option Strict On`

`2`	`Imports Microsoft.Kinect`

音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。

`1`	`Imports Microsoft.Speech.AudioFormat`

音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。

1Imports Microsoft.Speech.Recognition
2 
3Imports System.IO
4Class MainWindow
5  Dim kinect As KinectSensor

音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。

`1`	`Dim engine As SpeechRecognitionEngine`

ウィンドウが読み込まれた時の処理

Kinectが接続されているかどうかを確認し、接続されていない場合は警告メッセージを出して処理を抜けます。

Choicesクラスは、要素を構成するための代替項目の一覧を表すクラスで、GrammarBuilder オブジェクトからのみ直接使用されます。認識させる言葉をAddメソッドで登録します。

GrammarBuilderクラスは、単純な入力から複雑な Grammar（構文情報を取得管理するクラス）を構築するためのメカニズムを提供するクラスで、登録された言葉の構文（文法）設定を行い、SpeechRecognitionEngineへと設定します。Appendメソッドで、登録した言葉を GrammarBuilder オブジェクトとして現在の GrammarBuilder に追加します。

文法のチェックされた言葉（builder）で初期化された、新しいGrammerクラスのインスタンス、myGrammerオブジェクトを作成します。Grammerクラスは、構文情報を取得および管理するためにランタイムをサポートするクラスです。

次に、SpeechRecognitionEngineクラスの新しいインスタンスengineオブジェクトを作成します。

SpeechRecognitionEngineクラスのLoadGrammerメソッドで、Grammar によって指定されたとおりに、特定の構文を同期的に読み込みます。

Kinectを開始します。

Kinectの音声インターフェースは、Kinect.AudioSourceで提供されます。Startメソッドで音声入力を開始します。入力ストリームを取得し、SpeechRecognitionEngine クラスのSetInputToDefaultAudioDeviceメソッドで、SpeechRecognitionEngine の現在のインスタンスに、システム既定のオーディオ入力を割り当てます。

複数の音声認識が可能なように、RecognizeMode.Multipleを指定して、RecognizeAsyncメソッドで非同期音声認識を開始します。

言葉が認識された際には、AddHandlerステートメントで言葉を認識した際に発生するSpeechRecognizedイベントに、イベントハンドラを指定します。言葉を認識した際には、TextBlock内にその言葉を表示します。Confidenceプロパティで音声認識の信頼度を設定します。-1が低、0が標準、1が高信頼度となります。-1を指定するとどんな言葉でも反応する恐れがあります。1を指定するとなかなか認識してくれません。今回は信頼度が0.5より大きい場合に言葉を表示するよう指定しています。

01Private Sub MainWindow_Loaded(sender As Object, e As System.Windows.RoutedEventArgs) Handles Me.Loaded
02  If KinectSensor.KinectSensors.Count = 0 Then
03    MessageBox.Show("Kinectが接続されておりません。")
04    Exit Sub
05  End If
06  
07  Dim sentence As Choices = New Choices
08  With sentence
09    .Add("おはようございます")
10    .Add("こんにちわ")
11    .Add("こんばんわ")
12    .Add("おやすみなさい")
13    .Add("何か御用ですか")
14    .Add("どこに行きますか")
15  End With
16 
17  Dim builder As GrammarBuilder = New GrammarBuilder
18  builder.Append(sentence)
19  Dim myGrammer As Grammar = New Grammar(builder)
20  engine = New SpeechRecognitionEngine
21  engine.LoadGrammar(myGrammer)
22 
23  AddHandler engine.SpeechRecognized, Sub(speechSender As Object, speechArgs As SpeechRecognizedEventArgs)
24                    Dim confidence As Single = speechArgs.Result.Confidence 
25                    If confidence > 0.5 Then
26                          TextBlock1.Text = speechArgs.Result.Text 
27                    End If
28                            End Sub
29 
30  kinect = KinectSensor.KinectSensors(0)
31  kinect.Start()
32 
33  Dim audio As KinectAudioSource = kinect.AudioSource
34 
35  Using s As Stream = audio.Start()
36    engine.SetInputToDefaultAudioDevice()
37    engine.RecognizeAsync(RecognizeMode.Multiple)
38  End Using
39End Sub

ウィンドウが閉じられる時に発生するイベント

Kinectセンサーが動作している時は、StopメソッドでKinectセンサーを停止し、音声認識も停止します。最後にDisposeメソッドでリソースを解放します。

01  Private Sub MainWindow_Closing(sender As Object, e As System.ComponentModel.CancelEventArgs) Handles Me.Closing
02    If kinect Is Nothing = False Then
03      If kinect.IsRunning = True Then
04        kinect.Stop()
05        engine.RecognizeAsyncStop()
06        kinect.Dispose()
07      End If
08    End If
09  End Sub
10End Class

では、次に音声認識を使ってWebブラウザを操作するサンプルを紹介します。

プログラミング / 開発 / 音声認識 / Kinect / Kinect for Windows / Kinect SDK 1.5

Kinectに音声認識させるサンプルプログラム

3616_1v2.zip
Kinectの音声認識を使ってWebブラウザを操作するサンプル

3616_2v2.zip

著者

薬師寺国安

この著者の記事一覧この著者の
記事一覧

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストアアプリを多数公開中。

Microsoft MVP for Development Platforms - Client App Dev （Oct 2003-Sep 2012）。Microsoft MVP for Development Platforms - Windows Phone Development（Oct 2012-Sep 2013）。Microsoft MVP for Development Platforms - Client Development（Oct 2013-Sep 2014）。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015）。