人体の連続した動作を音声でキャプチャするKinectのサンプルプログラム
※前ページからの続きです。
RGBカメラ、距離カメラ、スケルトンを有効にし、各画像データを初期化する処理
DepthStream.Enableメソッドで距離カメラの表示サイズを640×480、1秒あたり30フレームで、動作を開始します。同様にColorStream.Enableメソッドで、RGBカメラを、RGBフォーマット、表示サイズ640×480、1秒あたり30フレームで、動作を開始します。プレイヤーおよびスケルトンの認識も開始します。
骨格生成を行う場合は、深度センサー(距離カメラ)を有効にする必要があります。Dim depthStream As DepthImageStream = Kinect.DepthStreamで、距離カメラの処理を行うクラスのインスタンスを取得します。Short配列変数myDepthPixelDataに距離カメラのピクセルデータのバイト長分の配列を作成します。640×480の表示サイズの場合は、myDepthPixelData=New Short(307200-1){}分の配列を確保することになります。-1しているのは配列のインデックスは0から始まるためです。
バイト配列変数myColorPixelDataにRGBカメラのピクセルデータのバイト長分の配列を作成します。
WriteableBitmapクラス型のRoom_Bitmapを下記の書式で初期化します。
New WriteableBitmap(距離カメラのフレーム幅,距離カメラのフレーム高さ, ビットマップの水平値, ビットマップの垂直値,ビットマップのピクセルフォーマット,ビットマップのビットマップパレット)
「ビットマップのピクセルフォーマット」には、PixelFormats.Bgra32を指定します。Bgra32 は、bits per pixel(BPP)が 32 の sRGB 形式です。各カラー チャネル(青、緑、赤、およびアルファ)に割り当てられるbits per pixel(BPP)は 8 です。ここに、Brg32を指定すると背景が透明化されず真っ黒になってしまいますので注意してください。
ここは、Room_Bitmap = New WriteableBitmap(640, 480, 96, 96, PixelFormats.Bgra32, Nothing)
と指定しても同じです。
同様に、Human1_bitmap、Human2_bitmapについてもWriteableBitmapの書式で初期化しておきます。
IntRect32構造体のmyScreenImageRectを下記の書式で初期化し、領域を指定します。
New IntRect32(新しいInt32Rect のインスタンスの X座標,新しいInt32Rect のインスタンスの Y座標, 四角形の幅を指定した新しい Int32Rect のインスタンスの幅, 四角形の高さを指定した新しい Int32Rect のインスタンスの高さ)
「新しいInt32Rect のインスタンスの X座標」と「新しいInt32Rect のインスタンスの Y座標」には0を指定します。「四角形の幅を指定した新しい Int32Rect のインスタンスの幅」には、Human2_bitmapオブジェクトの幅を指定し、「Int32Rect のインスタンスの高さ」には、Human2_bitmapオブジェクトの高さを指定します。
結局は、
myScreenImageRect = New Int32Rect(0, 0, 640, 480)
と指定しても同じことです。
Kinectセンサーを動作させます。
Private Sub init_kinect() Try If Kinect Is Nothing Then Exit Sub End If Kinect.DepthStream.Enable(DepthImageFormat.Resolution640x480Fps30) Kinect.ColorStream.Enable(ColorImageFormat.RgbResolution640x480Fps30) Kinect.SkeletonStream.Enable() Dim depthStream = Kinect.DepthStream myDepthPixelData = New Short(Kinect.DepthStream.FramePixelDataLength - 1) {} myColorPixelData = New Byte(Kinect.ColorStream.FramePixelDataLength - 1) {} Room_Bitmap = New WriteableBitmap(depthStream.FrameWidth, depthStream.FrameHeight, 96, 96, PixelFormats.Bgra32, Nothing) Human1_bitmap = New WriteableBitmap(depthStream.FrameWidth, depthStream.FrameHeight, 96, 96, PixelFormats.Bgra32, Nothing) Human2_bitmap = New WriteableBitmap(depthStream.FrameWidth, depthStream.FrameHeight, 96, 96, PixelFormats.Bgra32, Nothing) myScreenImageRect = New Int32Rect(0, 0, CInt(Math.Ceiling(Human2_bitmap.Width)), CInt(Math.Ceiling(Human2_bitmap.Height))) Kinect.Start() Catch ex As Exception MessageBox.Show(ex.Message) Exit Sub End Try End Sub
Kinectの画像をビットマップデータに書き出す処理
RGBカメラの1ラインあたりのバイト数を表すcolorStride変数にcolorFrame.BytesPerPixel *colorFrame.Width と指定します。RGBカメラの1ピクセルあたりのバイト数を取得して、RGBカメラのフレームの幅に乗算します。RGBカメラの1ラインあたりのバイト数が取得できます。32ビットを1バイト(8ビット)で除算すると4バイトそれにcolorFrame.Widthの640を乗算します。4×640=2560となります。直接この値を指定しても問題はありません。
また、RGBカメラのピクセルあたりのバイト数を取得する、BytesPerPixelと、距離カメラのストリームフレーム幅とを乗算して(colorFrame.BytesPerPixel * depthFrame.Width)取得した距離カメラの1ラインあたりのストリームバイト数を、変数screenImageStrideに格納しておきます。これも4×640=2560となり、直接この値を指定しても問題ありません。
Byte型の配列変数bytePlayer2変数を、距離カメラのフレームの高さと、距離カメラの1ラインあたりのストリームバイト数を保持しているscreenImageStrideで乗算した値で初期化します。つまり、depthFrame.Heightの640に、screenImageStrideに設定した、colorFrame.BytesPerPixel * depthFrame.Width(4(バイト)×640)の値である2560を乗算した(640×2560)1638400-1の値で初期化されたバイト配列型のbytePlayer2オブジェクトが作成されます。
同様にbytePlayer1とbyteRoomバイト型配列変数も同じ値で初期化しておきます。
CopyPixelDataToメソッドで、距離カメラのピクセルごとのデータを取得します。同様にRGBカメラのピクセルごとのデータも取得します。CopyPixelDataToメソッドは、ピクセルデータの長さを使用して、事前に割り当てられた配列へ、ピクセルごとの深度データやRGBデータをコピーします。これで、実際のデータを取り出します。
繰り返し変数depthYで、0から距離カメラのフレームの高さ分反復処理を行います。反復処理内では以下の処理を行います。
depthPixelIndex変数に1ずつ加算される変数depthXの値と繰り返し変数depthYに距離カメラのフレーム幅(640)を乗算した値を加算して、格納しておきます。
init_kinectプロシージャ内で確保された、myDepthPixelDataのShort型の配列で、depthPixelIndex変数に対応する値と、距離カメラのフレームデータから、PlayerIndexBitmaskでビットマスクに含まれているプレイヤーIDとで論理積演算を行います。距離カメラのピクセルデータを反復処理し、プレイヤーのインデックス値を抽出します。
ビット演算 AND は、2 つのビットを比較し、両方のビットの値が 1 の場合にのみ、値 1 を結果に代入します。そうでない場合は、結果のビットに 0 をセットします。AND 演算子は、その他すべてのビット演算子と同様、オペランドとして数値のみをとります。And演算子に付いては下記のURLを参照してください。
→ And演算子(msdn)
RGBカメラのX-Y座標データを表すColorImagePointクラスのcolorPoint変数に、MapDepthToColorImagePointで、距離カメラの座標に対応する、RGBカメラの座標を取得します。深度情報を実画像に変換してくれます。書式は下記の通りです。
KinectSensor. MapDepthToColorImagePoint(距離カメラの フォーマット,距離カメラのX 座標,XとY座標の距離データ(Short型),RGBカメラのフォーマット)
変数colorPixelIndexに、RGBカメラのX座標とRGBカメラのピクセルあたりのバイト数を取得して乗算し、RGBカメラのY座標とRGBカメラの1ラインあたりのバイト数を表すcolorStrideを乗算して、これらを加算した値を格納しておきます。
プレイヤーが存在し、プレイヤーの深度データが必要な場合は、
depth = myDepthPixelData(depthPixelIndex) >> DepthImageFrame.PlayerIndexBitmaskWidth
と記述して、
myDepthPixelData(depthPixelIndex) をDepthImageFrame.PlayerIndexBitmaskWidth
分、右へシフトします。
PlayerIndexBitmaskWidthフィールドは、プレイヤーインデックスビットマスク内の、幅またはビットの数を表します。これはプレイヤーインデックスを格納する深度データの下位ビットの数を表します。つまり、3ビット(DepthImageFrame.PlayerIndexBitmaskWidth分)右へシフトするとプレイヤーの深度のデータだけを取得できます。上記は、ビットシフト演算を使用しています。ビットシフトはその名の通り、ビット列をそのまま左右に移動させる演算です。
- expression1 >> expression2
- expression1
>> は expression1 を expression2 だけ右にシフトします
expression1 と expression2 には、それぞれ式を指定します
ビットごとの右シフト演算子 (>>)やビットごとの左シフト演算子 (>>)については、下記のURLを参照してください。
変数depthXを1ずつ加算し、ImageIndex変数にRGBカメラのピクセルあたりのバイト数を加算していきます。
ImageIndex = ImageIndex + colorFrame.BytesPerPixel は
ImageIndex = ImageIndex + 4 としても同じです。
BytesPerPixelは1ピクセルあたりのバイト数を取得しますので、1ピクセルは8ビットでフルカラーの場合は32ビットになるため、32÷8=4バイトとなり、colorFrame.BytesPerPixelは4と同じになります。
この値が、Byte型の配列変数(bytePlayer1、bytePlayer2、byteRoom)のインデックスに対応します。ImageIndexに対応する、Byte型の配列変数である距離データを画像化していきます。下位3ビットのプレイヤーIDを指し示す値です。
深度に応じて書き込み先を変更していきます。プレイヤーが存在し、深度のデータが2000(2m)より大きい場合は、プレイヤーを奥側へ描画します。深度のデータが2000(2m)より小さかった場合は、手前に描画します。プレイヤー以外は背景イメージに描画します。このサンプルでは、personImageというCanvasを基準に、personImageより後ろに、または前に表示されることになります。
- bytePlayer1(ImageIndex + 3) = &HFF
- bytePlayer2(ImageIndex + 3) = &HFF
- byteRoom(ImageIndex + 3) = &HFF
上記3つのコードはAlphaを指定しているコードです。PixelFormats.Bgra32と指定していましたので、32ビット中、残りの8ビットをAlphaに使用して背景を透明化しています。
WriteableBitmap型の変数Human1_bitmapにWritePixelsメソッドで、byteからビットマップへ書き出します。ビットマップの指定した領域内のピクセルを更新します。書式は下記の通りです。このHuman1_bitmapプロパティの値を、Nameがhuman_image1という、ImageコントロールのSourceプロパティにバインドします。
WritePixels(更新するWriteableBitmapの四角形,ビットマップの更新に使用するピクセル配列,pixel内の更新領域のストライド,入力バッファのオフセット)
同様に、Human2_bitmap、Room_Bitmapに関してもWritePixelsメソッドを適用し、byteからビットマップへ書き出します。これらのプロパティをImageコントロールのSourceプロパティにバインドします。
Private Sub RenderScreen(colorFrame As ColorImageFrame, depthFrame As DepthImageFrame) If Kinect Is Nothing OrElse depthFrame Is Nothing OrElse colorFrame Is Nothing Then Return End If Dim depth As Integer = 0 Dim depthPixelIndex As Integer Dim playerIndex As Integer Dim colorPixelIndex As Integer Dim colorPoint As ColorImagePoint Dim colorStride As Integer = colorFrame.BytesPerPixel * colorFrame.Width Dim screenImageStride As Integer = Kinect.DepthStream.FrameWidth * colorFrame.BytesPerPixel Dim ImageIndex As Integer = 0 Dim bytePlayer2 As Byte() = New Byte(depthFrame.Height * screenImageStride - 1) {} Dim bytePlayer1 As Byte() = New Byte(depthFrame.Height * screenImageStride - 1) {} Dim byteRoom As Byte() = New Byte(depthFrame.Height * screenImageStride - 1) {} depthFrame.CopyPixelDataTo(myDepthPixelData) colorFrame.CopyPixelDataTo(myColorPixelData) For depthY As Integer = 0 To depthFrame.Height - 1 Dim depthX As Integer = 0 While depthX < depthFrame.Width depthPixelIndex = depthX + (depthY * depthFrame.Width) playerIndex = myDepthPixelData(depthPixelIndex) And DepthImageFrame.PlayerIndexBitmask colorPoint = Kinect.MapDepthToColorImagePoint(depthFrame.Format, depthX, depthY, myDepthPixelData(depthPixelIndex), colorFrame.Format) colorPixelIndex = (colorPoint.X * colorFrame.BytesPerPixel) + (colorPoint.Y * colorStride) If playerIndex <> 0 Then depth = myDepthPixelData(depthPixelIndex) >> DepthImageFrame.PlayerIndexBitmaskWidth If depth > targetDepth Then bytePlayer1(ImageIndex) = myColorPixelData(colorPixelIndex) 'Blue bytePlayer1(ImageIndex + 1) = myColorPixelData(colorPixelIndex + 1) 'Green bytePlayer1(ImageIndex + 2) = myColorPixelData(colorPixelIndex + 2) 'Red 'Alpha bytePlayer1(ImageIndex + 3) = &HFF Else bytePlayer2(ImageIndex) = myColorPixelData(colorPixelIndex) 'Blue bytePlayer2(ImageIndex + 1) = myColorPixelData(colorPixelIndex + 1) 'Green bytePlayer2(ImageIndex + 2) = myColorPixelData(colorPixelIndex + 2) 'Red 'Alpha bytePlayer2(ImageIndex + 3) = &HFF End If Else byteRoom(ImageIndex) = myColorPixelData(colorPixelIndex) 'Blue byteRoom(ImageIndex + 1) = myColorPixelData(colorPixelIndex + 1) 'Green byteRoom(ImageIndex + 2) = myColorPixelData(colorPixelIndex + 2) 'Red 'Alpha byteRoom(ImageIndex + 3) = &HFF End If depthX = depthX + 1 ImageIndex = ImageIndex + colorFrame.BytesPerPixel End While Next Human1_bitmap.WritePixels(myScreenImageRect, bytePlayer1, screenImageStride, 0) Human2_bitmap.WritePixels(myScreenImageRect, bytePlayer2, screenImageStride, 0) Room_Bitmap.WritePixels(myScreenImageRect, byteRoom, screenImageStride, 0) End Sub
ウィンドウが閉じられる時の処理
Kinectセンサーが動作している場合は、動作を停止し、音声認識も停止します。最後にKinectセンサーのリソースを解放します。
Private Sub MainWindow_Closing(sender As Object, e As System.ComponentModel.CancelEventArgs) Handles Me.Closing If Kinect Is Nothing = False Then If Kinect.IsRunning = True Then Kinect.Stop() engine.RecognizeAsyncStop() Kinect.Dispose() End If End If End Sub End Class
以上で今回のサンプルは終了です。
Kinectセンサーによる音声でのモーションキャプチャのサンプル
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- Kinectを使って、画面上の赤い輪をくぐるサンプル
- Kinectを使って、自分の手のひらに小さな分身を出現させてみる
- Kinectで結成したマイ・ダンスチームを、サンプルを見ながら実際の背景に合成してみよう
- Kinectの音声認識を使って、プレイヤーを分離、結合させるデモを試してみる
- これであなたもダンスグループの一員!?Kinectで自分を分身させるプログラムを作る
- プレイヤーの身体パーツを判別するKinectサンプル
- Kinectで距離カメラの値を取得して、指定した距離で人物が背景に溶け込むサンプル
- 人物を切り抜いて画面に表示するKinectサンプル
- Kinectを使って、顔の動きを認識して画面に表示する
- 人物特定に使える!?実際の映像で顔を認識するKinectプログラム