Kinectの音声認識を使って、プレイヤーを分離、結合させるデモを試してみる
今回のサンプルは、音声認識によってプレイヤーの分身を作っていきます。プレイヤーの数は6名以上の分身はできなくしています。試す場合はKinectセンサーから2m離れてお試しください。
このサンプルは、前回の記事をアレンジしたものです。音声によってプレイヤーが分離したり、結合されたりします。いろいろな動作やポーズでお試しください。
実際の動きは図1と動画を参照してください。このサンプルでは最初に表示されている画像が1番となり、その前に次の画像、その前にまた次の画像・・・といった順に表示されます。例えば、腕を上げると一番背後の画像が一番目に腕を上げ、次に一番先頭の画像、次の画像・・・という順番になります。
サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。
プロジェクトの作成
VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_EXILE_Separate」という名前を付けています。
ツールボックスからデザイン画面上にImageコントロール2個とTextBlockコントロールを1個配置します。
XAMLコードはリスト1、レイアウトは図2のようなります。
リスト1 (MainWindow.xaml)
(1)Nameがroom_imageのImageコントロールのSourceプロパティに、Room_Bitmapプロパティをバインドしています。この名前はVBコード内で定義したプロパティ名です。Widthには640、Heightには480と指定しておきます。
(2)プレイヤーを表示する領域です。
<Window x:Class="MainWindow" xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation" xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml" Title="MainWindow" Height="661" Width="661"> <Grid> <Grid Width="646"> <Image Name="room_image" Margin="0" Stretch="Uniform" Source="{Binding Room_Bitmap}" Width="640" Height="480"/> ■(1) <Image Name="personImage" Stretch="Uniform"/> ■(2) <TextBlock Height="32" HorizontalAlignment="Left" Name="TextBlock1" VerticalAlignment="Top" Width="548" FontSize="18" FontWeight="Bold" Foreground="Red" Margin="58,15,0,0" /> </Grid> </Grid> </Window>
参照の追加
VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speech、それと自作したRingBufferLibの3つです。「.NET」タブ内に表示されていないDLLファイルは「参照」タブからDLLファイルを指定します。
Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。
Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。
次に、ソリューションエクスプローラー内のDLLフォルダ内に配置しているRingBufferLib.dllも参照の追加で追加してください。既に追加済みですが、エラーが出るようであれば追加し直してください。RingBufferLib.dllのソースコードについては「これであなたもダンスグループの一員!?Kinectで自分を分身させるプログラムを作る」を参照してください。
RingBufferLib.dllではリングバッファというバッファ処理を行っています。リングバッファに関しては下記のページを参考にしてください。
→ リングバッファ(Wikipedia)
次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。
ロジックコードを記述する
リスト2 (MainWindow.xaml.vb)
Option Strict On Imports Microsoft.Kinect
RingBufferLib.dllに含まれる、RingBufferLib.Kinect_RingBuffer名前空間をインポートします。リングバッファを作成し、RGB、距離カメラ、プレイヤーインデックス配列のコピー等を行う機能を提供します。
Imports RingBufferLib.Kinect_RingBuffer
音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。
Imports Microsoft.Speech.Recognition
音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。
Imports Microsoft.Speech.AudioFormat Imports System.IO Class MainWindow
一個のKinectセンサーを表すメンバ変数Kinectを宣言します。
Dim Kinect As KinectSensor
整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myScreenImageRectとmyScreenImageRect2を宣言します。領域の指定に使用されます。
Dim myScreenImageRect As Int32Rect Dim myScreenImageRect2 As Int32Rect
Short型の配列メンバ変数myDepthPixelDataとByte型の配列メンバ変数myColorPixelDataを宣言しておきます。
※深度情報は、1ピクセルあたり2バイトのshort型。画像情報はフルカラーなので1ピクセルあたり4バイトのbyte型です。
Dim myDepthPixelData As Short() Dim myColorPixelData As Byte()
深度の値を格納するメンバ変数targetDepthを宣言します。
Dim targetDepth As Double
Bgr32形式は1ピクセルあたりのビット数が32bitのRGB形式で、先頭から1バイト(8bit)ずつに青、緑、赤、の情報が入っています。各カラーチャネルに割り当てられるbits per pixel(BBP)が8であるため、Bgr32を8で除算した4バイトの値をメンバ変数BrgPixelに格納しておきます。青、緑、赤では24ビットしか使用されません、残りの8ビットはAlphaに使用されることが多いです。このサンプルでもAlphaに使用しています。また32ビットを8で除算した4(バイト)を直接指定しても問題ありません。
Dim BytesPerPixel As Integer = CInt(PixelFormats.Bgr32.BitsPerPixel / 8)
分身の数用のメンバ変数を宣言します。
Dim maxPlayer As Integer = 0
3秒分のバッファ領域を確保します。
Const bufferSecond As Integer = 3 Dim screenImageStride As Integer
整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myImageSizeを宣言します。
Dim myImageSize As Int32Rect
リングバッファの各機能を提供するRingBuffer構造体のメンバ変数myRingBufferを宣言します。
Dim myRingBuffer As RingBuffer
WriteableBitmapクラス型のメンバ変数myOverrayBitmapメンバ変数を宣言します。
Dim myOverrayBitmap As WriteableBitmap
音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。
Dim engine As SpeechRecognitionEngine Dim words As String
「分身」と発声するごとに1ずつ加算されるメンバ変数speechNoを宣言します。これは分身の数と一致します。
Dim speechNo As Integer = 1
WriteableBitmapクラス型のRoom_Bitmapプロパティを定義します。
Property Room_Bitmap As WriteableBitmap
Kinectの音声認識でプレイヤーを分離、結合するサンプル
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- Kinectで結成したマイ・ダンスチームを、サンプルを見ながら実際の背景に合成してみよう
- Kinectを使って、画面上の赤い輪をくぐるサンプル
- これであなたもダンスグループの一員!?Kinectで自分を分身させるプログラムを作る
- Kinectを使って、自分の手のひらに小さな分身を出現させてみる
- 人体の連続した動作を音声でキャプチャするKinectのサンプルプログラム
- プレイヤーの身体パーツを判別するKinectサンプル
- Kinectで距離カメラの値を取得して、指定した距離で人物が背景に溶け込むサンプル
- 人物を切り抜いて画面に表示するKinectサンプル
- Kinectを使って、顔の動きを認識して画面に表示する
- Kinect v2のカメラから画像を取り込んで表示する基本プログラム