Kinect v2の音声認識で「仮面」を選んで変身してみる

データ解析

技術解説

連載 :

作りながら学ぶKinect v2プログラミング開発

2015年1月6日(火)

薬師寺国安

プログラムコード

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbにリスト3のコードを記述します。今回もだいぶ長いので、頑張って下さい。

名前空間の読み込みとクラスの作成

リスト3：MainWindow.xaml.vbの一部

1Imports Microsoft.Kinect
2Imports Microsoft.Speech.AudioFormat
3Imports Microsoft.Speech.Recognition
4Imports KinectSensor_KinectAudioStream
5 
6Public Class Mask
7    Public Property 画像名 As String
8End Class
9Class MainWindow

名前空間の読み込みについては、第2回目の解説を参照してください。

Maskクラス内で、文字列型の「画像名」というプロパティを定義します。

メンバー変数の宣言

リスト4：MainWindow.xaml.vbの一部、リスト3の続き

01Private xmldoc As XElement
02Private myKinect As KinectSensor
03Private myBodyFrameReader As BodyFrameReader
04Private myBodies As Body()
05Private myHandPositionX As Double
06Private myHandPositionY As Double
07Private myColorSpacePoint As ColorSpacePoint　　　（1）
08Private myBytesPerPixel As Integer = 4
09Private myColorFrameReader As ColorFrameReader = Nothing
10Private colorBitmap As WriteableBitmap = Nothing
11Private ColorImagePixelData As Byte()
12Private BytesPerPixel As Integer = 4
13Private point As DepthSpacePoint　　　（2）
14Private SpeechEngine As SpeechRecognitionEngine
15Const SpeechID As String = "SR_MS_ja-JP_Kinect_11.0"
16Private myKinectAudioStream As KinectAudioStream
17Private Index As Integer = 0
18Private myImage As Image　　　（3）
19Private myMask As String　　　（3）

ほとんどが、第2回目と同じですので、異なるメンバー変数の主なものだけ解説しておきます。

カラー空間における2Dの位置を表す構造体のメンバー変数myColorSpacePointを宣言します。
距離空間における2Dの位置を表す構造体のメンバー変数pointを宣言します。
Image型のメンバー変数、myImageとmyMaskを宣言します。

ウインドウが読み込まれた時の処理

リスト5：MainWindow.xaml.vbの一部、リスト4の続き

01Private Sub MainWindow_Loaded(sender As Object, e As RoutedEventArgs) Handles Me.Loaded
02    xmldoc = XElement.Load("mask.xml")　　　（1）
03    Dim maskList As New List(Of Mask)　　　（2）
04 
05    For Each result In From c In xmldoc.Descendants("画像名") Select c
06        maskList.Add(New Mask With {.画像名 = "Images/" & result.Value})　（3）
07    Next
08    ListBox1.ItemsSource = maskList　　　（4）
09 
10    myKinect = KinectSensor.GetDefault　　　（5）
11    If myKinect Is Nothing = False Then
12        Dim myDepthDescription = myKinect.DepthFrameSource.FrameDescription　　　（6）
13        myKinect.Open()　　　（7）
14        myBodyFrameReader = myKinect.BodyFrameSource.OpenReader　　（8）
15        AddHandler myBodyFrameReader.FrameArrived, AddressOf myBodyFrameReader_FrameArrived　　　（9）
16        myBodies = New Body(myKinect.BodyFrameSource.BodyCount - 1) {}　（10）
17        myColorFrameReader = myKinect.ColorFrameSource.OpenReader　（11）
18        Dim myColorFrameDescription As FrameDescription = myKinect.ColorFrameSource.CreateFrameDescription(ColorImageFormat.Bgra)　 　　（12）
19        ColorImagePixelData = New Byte(myColorFrameDescription.Width * myColorFrameDescription.Height * BytesPerPixel - 1) {}　　　（13）
20        colorBitmap = New WriteableBitmap(myColorFrameDescription.Width, myColorFrameDescription.Height, 96.0, 96.0, PixelFormats.Bgr32, Nothing)　　 （14）
21        AddHandler myColorFrameReader.FrameArrived, AddressOf myColorFrameReader_FrameArrived　　　（15）
22        Dim myAudioBeamList As IReadOnlyList(Of AudioBeam) = myKinect.AudioSource.AudioBeams　　　（16）
23        Dim myAudioStream = myAudioBeamList(0).OpenInputStream　　　（17）
24        myKinectAudioStream = New KinectAudioStream(myAudioStream) 　　　（18）
25    End If
26 
27    SpeechEngine = New SpeechRecognitionEngine(SpeechID) 　　　（19）
28    Dim myWord As New Choices　　　（20）
29    With myWord
30        .Add("うえ")
31        .Add("した")
32    End With
33 
34    Dim myGrammarBuilder As New GrammarBuilder
35    myGrammarBuilder.Culture = SpeechEngine.RecognizerInfo.Culture
36    myGrammarBuilder.Append(myWord)　　　　　　（21）
37    Dim myGrammar As New Grammar(myGrammarBuilder) 　　　（22）
38    SpeechEngine.LoadGrammar(myGrammar)　　　（23）
39 
40    AddHandler SpeechEngine.SpeechRecognized, AddressOf speechEngine_SpeechRecognized　　　（24）
41    myKinectAudioStream.SpeechActive = True　　　（25）
42    SpeechEngine.SetInputToAudioStream(myKinectAudioStream, New SpeechAudioFormatInfo(EncodingFormat.Pcm, 16000, 16, 1, 32000, 2, Nothing)) 　　　（26）
43    SpeechEngine.RecognizeAsync(RecognizeMode.Multiple) 　　　（27）
44End Sub

XElement.Loadメソッドで「Mask.xml」を読み込みます。
Maskクラス型の新しいリストであるmaskListを作成します。
全ての子孫要素「画像名」用の内容を変数resultに格納しながら、以下の処理を行います。
maskListオブジェクトに、Maskクラスの「画像名」プロパティに、「画像名」要素の値を、フォルダー名である「Images」を連結して、Addメソッドで追加します。
ListBox1のItemsSourceプロパティにmaskListオブジェクトを追加します。これで、ListBoxにマスク画像の一覧が表示されます。
Kinectセンサーを使用可能にします。
Kinectセンサーが使用可能な状態にある場合は、以下の処理を行います。
距離フレームプロパティの形式を取得し、変数myDepthDescriptionで参照します。
Kinectを動作させます。
BodyFrameSource.OpenReaderで、ボディフレームのソースフレームのリーダーを作成し、変数myBodyFrameReaderで参照します。
myBodyFrameReader.FrameArrivedで、新しいボディフレームの準備ができているときに発生するイベント処理を実行します。
ボディフレームソースのボディの個数を引数に持った、新しいBodyの配列をmyBodiesに格納します。
myKinect.ColorFrameSource.OpenReaderで、カラーフレームのソースフレームのリーダーを作成し、myColorFrameReaderメンバー変数で参照します。
カラー画像の情報を作成し、変数myColorFrameDescriptionで参照します。
配列変数ColorImagePixelDataを確保します。
ピクセルデータを格納するビットマップを作成し、変数colorBitmapで参照します。
myColorFrameReader.FrameArrivedでカラーフレーム到着時のイベントを実行します。
オーディオビームを取得し、配列変数myAudioBeamListに格納します。
OpenInputStreamで音声入力設定を行い、変数myAudioStreamで参照します。
myAudioStreamで初期化された新しいKinectAudioStreamのインスタンスである、myKinectAudioStreamオブジェクトを作成します。
定数メンバー変数SpeechIDで初期化された、新しいSpeechRecognitionEngineのインスタンス、SpeechEngineオブジェクトを作成します。
Choicesクラスは、要素を構成するための代替項目の一覧を表すクラスで、GrammarBuilder オブジェクトからのみ直接使用されます。認識させる言葉をAddメソッドで登録します。ここでは「うえ」と「した」の2語を登録しています。
GrammarBuilderクラスは、単純な入力から複雑な Grammar（構文情報を取得管理するクラス）を構築するためのメカニズムを提供するクラスで、登録された言葉の構文（文法）を設定します。Appendメソッドで、登録した言葉（myWord）を myGrammarBuilder オブジェクトに追加します。
文法のチェックされた言葉（myGrammarBuilder）で初期化された、新しいGrammarクラスのインスタンス、myGrammarオブジェクトを作成します。Grammarクラスは、構文情報を取得および管理するためのランタイムをサポートするクラスです。
SpeechRecognitionEngineクラスのLoadGrammarメソッドで、Grammar によって指定されたとおりに、特定の構文を同期的に読み込みます。
SpeechEngine.SpeechRecognizedで音声が認識された時に、音声認識処理を行います。
SpeechActiveプロパティにTrueを指定し、オーディオストリームの変換をアクティブにします。この記述がないと音声が認識されませんので、注意して下さい。
SetInputToAudioStreamメソッドで認識エンジンに入力設定を行います。
複数の音声認識が可能なように、RecognizeMode.Multipleを指定して、RecognizeAsyncメソッドで非同期音声認識を開始します。

Kinect v2

音声認識で仮面を装着するKinect v2プログラム
『作りながら学ぶKinect v2プログラミング開発』第4回のサンプルプログラムです。

5449_1.zip

著者

薬師寺国安

この著者の記事一覧この著者の
記事一覧

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストアアプリを多数公開中。

Microsoft MVP for Development Platforms - Client App Dev （Oct 2003-Sep 2012）。Microsoft MVP for Development Platforms - Windows Phone Development（Oct 2012-Sep 2013）。Microsoft MVP for Development Platforms - Client Development（Oct 2013-Sep 2014）。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015）。