PR

プレイヤーの身体パーツを判別するKinectサンプル

2012年8月22日(水)
薬師寺 国安

ロジックコードを記述する

リスト2 (MainWindow.xaml.vb)

Option Strict On
Imports Microsoft.Kinect

Class MainWindow

1個のKinectセンサーを表すKinectSensorクラスのメンバ変数Kinectを宣言しておきます。

  Dim Kinect As KinectSensor

プレイヤーごとのスケルトンデータを表すSkeletonクラス型のメンバ変数mySkeletonを宣言しておきます。

  Dim mySkeleton As Skeleton

整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myScreenImageRectを宣言します。領域の指定に使用されます。

  Dim myScreenImageRect As Int32Rect

Short型の配列メンバ変数myDepthPixelDataと、Byte型の配列メンバ変数myColorPixelDataを宣言しておきます。
※深度情報は、1ピクセルあたり2バイトのshort型。画像情報はフルカラーなので1ピクセルあたり4バイトのbyte型です。

  Dim myDepthPixelData As Short()
  Dim myColorPixelData As Byte()

右手、左手、頭の、Kinectセンサーからの距離の値を格納するSingle型のメンバ変数を宣言しておきます。

  Dim rightZ As Single
  Dim leftZ As Single
  Dim headZ As Single

ピクセル深度を格納するためのDouble型のメンバ変数myDepthを宣言しておきます。

  Dim myDepth As Double

書き込みおよび更新が可能なBitmapSourceを提供する、WriteableBitmapクラス型のHumanImageプロパティを定義しておきます。

  Property HumanImage As WriteableBitmap

ウィンドウが読み込まれた時の処理

ピクセル深度の値を1000(1m)で初期化しておきます。よってKinectセンサーから1m離れて試す必要があります。Kinectデバイスを取得し、ビットマップデータを初期化し、プレイヤーの画層(レイヤー)を初期化するinit_kinectプロシージャを実行します。

構成ツリーのオブジェクトがレンダリングされる直前に発生する、CompositionTarget.Renderingイベントにイベントハンドラを指定します。イベントハンドラ内では以下の処理を行います。

OpenNextFrame(100)メソッドで、KinectからRGBデータの次のフレームを開きます。次のフレームがなかった場合のタイムアウトを100ミリセコンドと指定しています。
同様に、Kinectから深度データの次のフレームを開きます。次のフレームがなかった場合のタイムアウトを100ミリセコンドと指定しています。
背景をマスクして距離データを取得するRenderScreenプロシージャを実行します。引数として、Kinectのストリーミング用RGBデータのバッファと深度データのバッファを含んでいる、colorFrameとdepthFrameを渡しています。

DataContextプロパティにMainWindow自身のインスタンスを指定します。この処理を行わないとプレイヤーが表示されませんので注意してください。

  Private Sub MainWindow_Loaded(sender As Object, e As System.Windows.RoutedEventArgs) Handles Me.Loaded
    myDepth = 1000 
    init_kinect()
  
    AddHandler CompositionTarget.Rendering, Sub(renderSender As Object, renderArgs As EventArgs)
      Using colorFrame As ColorImageFrame = Kinect.ColorStream.OpenNext
        Using depthFrame As DepthImageFrame = Kinect.DepthStream.OpenNextFrame(100)
          RenderScreen(colorFrame, depthFrame)
        End Using
      End Using
        End Sub
    DataContext = Me
  End Sub

Kinectデバイスを取得し、ビットマップデータを初期化し、プレイヤーの画層(レイヤー)を初期化する処理

Kinectセンサーを取得します。DepthStream.Enableメソッドで距離カメラの表示サイズを640×480、1秒あたり30フレームで、動作を開始します。同様にColorStream.Enableメソッドで、RGBカメラを、RGBフォーマット、表示サイズ640×480、1秒あたり30フレームで、動作を開始します。プレイヤーおよびスケルトンの動作も開始します。

AddHandlerメソッドでRGBカメラ、距離カメラ、スケルトンのフレームが更新されたことを通知するイベント、AllFramesReadyにイベントハンドラを追加します。骨格生成を行う場合は、深度センサー(距離カメラ)を有効にする必要があります。Dim depthStream As DepthImageStream = Kinect.DepthStreamで、距離カメラの処理を行うクラスのインスタンスを取得します。Short配列変数myDepthPixelDataに、距離カメラのピクセルデータの、バイト長分の配列を作成します。640×480の表示サイズの場合は、myDepthPixelData=New Short(307200-1){}分の配列を確保することになります。-1しているのは配列のインデックスは0から始まるためです。

バイト配列変数myColorPixelDataに、RGBカメラのピクセルデータのバイト長分の配列を作成します。

WriteableBitmapクラス型のHumanImageを下記の書式で初期化します。

New WriteableBitmap(距離カメラのフレーム幅,距離カメラのフレーム高さ, ビットマップの水平値, ビットマップの垂直値,ビットマップのピクセルフォーマット,ビットマップのビットマップパレット)

「ビットマップのピクセルフォーマット」に指定する、PixelFormats.Bgr32は、Bgr32 ピクセル形式を取得します。Bgr32 は、bits per pixel (BPP) が32のsRGB 形式です。各カラー チャネル (青、緑、および赤) に割り当てられるbits per pixel (BPP) は 8 です。これで、HumanImageオブジェクトの表示形式が設定されます。

HumanImage = New WriteableBitmap(640, 480, 96, 96, PixelFormats.Bgr32, Nothing)
と指定しても同じです。

IntRect32構造体のmyScreenImageRectを下記の書式で初期化し、領域を指定します。

New IntRect32(新しいInt32Rect のインスタンスの X座標,新しいInt32Rect のインスタンスの Y座標, 四角形の幅を指定した新しい Int32Rect のインスタンスの幅, 四角形の高さを指定した新しい Int32Rect のインスタンスの高さ)

「新しいInt32Rect のインスタンスの X座標」と「新しいInt32Rect のインスタンスの Y座標」には0を指定します。「四角形の幅を指定した新しい Int32Rect のインスタンスの幅」には、HumanImageオブジェクトの幅を指定し、「Int32Rect のインスタンスの高さ」には、HumanImageオブジェクトの高さを指定します。

結局は、
myImageRect = New Int32Rect(0, 0, 640, 480)
と指定しても同じことです。

Kinectを動作させます。

Private Sub init_kinect()
    Try
      If KinectSensor.KinectSensors.Count = 0 Then
        MessageBox.Show("KINECTが接続されておりません。")
        Exit Sub
      Else
        Kinect = KinectSensor.KinectSensors(0)
      End If
 
      Kinect.DepthStream.Enable(DepthImageFormat.Resolution640x480Fps30)
      Kinect.ColorStream.Enable(ColorImageFormat.RgbResolution640x480Fps30)
      Kinect.SkeletonStream.Enable()
 
      AddHandler Kinect.AllFramesReady, AddressOf kinect_AllFramesReady
      Dim depthStream As DepthImageStream = Kinect.DepthStream
      myDepthPixelData = New Short(Kinect.DepthStream.FramePixelDataLength - 1) {}
      myColorPixelData = New Byte(Kinect.ColorStream.FramePixelDataLength - 1) {}
      HumanImage = New WriteableBitmap(depthStream.FrameWidth, depthStream.FrameHeight, 96, 96, PixelFormats.Bgr32, Nothing
 
      myScreenImageRect = New Int32Rect(0, 0, CInt(Math.Ceiling(myHumanImage.Width)), CInt(Math.Ceiling(myHumanImage.Height)))
      Kinect.Start()
    Catch ex As Exception
      MessageBox.Show(ex.Message)
      Exit Sub
    End Try
  End Sub

背景をマスクし距離データを取得する処理

RGBカメラの1ラインあたりのバイト数を表すcolorStride変数にcolorFrame.BytesPerPixel *colorFrame.Width と指定します。RGBカメラの1ピクセルあたりのバイト数を取得して、RGBカメラのフレームの幅で乗算します。RGBカメラの1ラインあたりのバイト数が取得できます。
32ビットを1バイト(8ビット)で除算すると4バイトそれにcolorFrame.Widthの640を乗算します。4×640=2560となります。直接この値を指定しても問題はありません。

同様に、screenImageStride変数に、colorFrame.BytesPerPixel * depthFrame.Widthと指定します。

これも4×640=2560となり、直接この値を指定しても問題ありません。

Byte型の配列変数bytePlayer1変数を、距離カメラのフレームの高さと、距離カメラの1ラインあたりのストリームバイト数を保持しているscreenImageStrideで乗算した値で初期化します。
つまり、depthFrame.Heightの480に、screenImageStrideに設定した、colorFrame.BytesPerPixel * depthFrame.Width (4(バイト)×640)の値である2560を乗算した(480×2560)1228800-1の値を作成します。この値で初期化されたバイト配列型であるbytePlayer1オブジェクトを作成します。

CopyPixelDataToメソッドで、距離カメラのピクセルごとのデータを取得します。同様にRGBカメラのピクセルごとのデータも取得します。これで、実際のデータを取り出します。
CopyPixelDataToメソッドは、ピクセルデータの長さを使用して、事前に割り当てられた配列へ、ピクセルごとの深度データやRGBデータをコピーします。

繰り返し変数depthYで、0から距離カメラのフレームの高さ分反復処理を行います。反復処理内では以下の処理を行います。
depthPixelIndex変数に1ずつ加算される変数depthXの値と繰り返し変数depthYに距離カメラのフレーム幅(640)を乗算した値を加算して、格納しておきます。

Init_kinectプロシージャ内で確保された、myDepthPixelDataのShort型の配列で、depthPixelIndex変数に対応する値と、距離カメラのフレームデータから、PlayerIndexBitmaskでビットマスクに含まれているプレイヤーIDとで論理積演算を行います。距離カメラのピクセルデータを反復処理し、プレイヤーのインデックス値を抽出します。

ビット演算 AND は、2 つのビットを比較し、両方のビットの値が 1 の場合にのみ、値 1 を結果に代入します。そうでない場合は、結果のビットに 0 をセットします。AND 演算子は、その他全てのビット演算子と同様、オペランドとして数値のみを取ります。And演算子に付いては下記のURLを参照してください。
→ And 演算子(msdn)

また、
playerIndex = myDepthPixelData(depthPixelIndex) And DepthImageFrame.PlayerIndexBitmask
でplayerIndexに入る演算結果については、図3を参照してください。

RGBカメラのX-Y座標データを表す、ColorImagePointクラスのcolorPointを宣言し、MapDepthToColorImagePointで、距離カメラの座標に対応するRGBカメラの座標を取得します。
深度情報を実画像に変換してくれます。書式は下記の通りです。

KinectSensor. MapDepthToColorImagePoint(距離カメラの フォーマット,距離カメラのX 座標,XとY座標の距離データ(Short型),RGBカメラのフォーマット)

変数colorPixelIndexに、RGBカメラのX座標とRGBカメラのピクセルあたりのバイト数を取得して乗算し、RGBカメラのY座標とRGBカメラの1ラインあたりのバイト数を表すcolorStrideを乗算して、これらを加算した値を格納しておきます。colorPixelIndex = (colorPoint.X * 4) + (colorPoint.Y * (4*640))としても同じです。

プレイヤーが存在し、プレイヤーの深度データが必要な場合は、

depth = myDepthPixelData(depthPixelIndex) >> DepthImageFrame.PlayerIndexBitmaskWidth
と記述して、myDepthPixelData(depthPixelIndex) をDepthImageFrame.PlayerIndexBitmaskWidth 分右へシフトします。

PlayerIndexBitmaskWidthフィールドは、プレイヤーインデックスビットマスク内の、幅またはビットの数を表します。これはプレイヤーインデックスを格納する深度データの、下位ビットの数を表します。

つまり、3ビット(DepthImageFrame.PlayerIndexBitmaskWidth分)右へシフトするとプレイヤーの深度のデータだけを取得できます。深度のデータが1000(1m)より小さい場合は、プレイヤーを抽出します。
上記は、ビットシフト演算を使用しています。ビットシフトはその名の通り、ビット列をそのまま左右に移動させる演算です。

expression1 >> expression2
expression1
>> は expression1 を expression2 だけ右にシフトします

expression1 と expression2 には、それぞれ式を指定します
ビットごとの右シフト演算子 (>>)やビットごとの左シフト演算子 (>>)については、下記のURLを参照してください。

ImageIndexに対応する、Byte型の配列変数である距離データを画像化していきます。

Kinectセンサーからの右手の距離に1000を乗算した値が、myDepthメンバ変数の値(1m)より小さかった場合は「これは右手です。」と表示します。左手の距離が1mより小さかった場合は、「これは左手です。」と表示します。左手の認識精度が悪い場合がありますので、左手をきっちりと前方に付きだし表示させてください。右手と左手の距離が1mより小さかった場合は「これは両手です。」と表示します。

頭部の距離が1mより小さかった場合は「これは頭です。」と表示します。身体の一部が、距離カメラとの距離の1m以内にある場合は、その一部を表示して部位の名称を表示します。ここで使用している右手、左手、頭部の距離カメラとの距離は、GetCameraPointプロシージャ内で取得していますので、後ほど解説いたします。

変数depthXを1ずつ加算し、ImageIndex変数にRGBカメラのピクセルあたりのバイト数を加算していきます。

ImageIndex = ImageIndex + colorFrame.BytesPerPixel

ImageIndex = ImageIndex + 4
としても同じです。

BytesPerPixelは1ピクセルあたりのバイト数を取得しますので、1ピクセルは8ビットでフルカラーの場合は32ビットになるため、32÷8=4バイトとなり、colorFrame.BytesPerPixelは4と同じになります。
この値が、Byte型の配列変数(bytePlayer1)のインデックスに対応します。下位3ビットのプレイヤーIDを指し示す値です。

WriteableBitmap型の変数HumanImageにWritePixelsメソッドで、ビットマップの指定した領域内に更新したデータを格納します。書式は下記の通りです。このHumanImageプロパティの値を、NameがmyHumanImageというImageコントロールのSourceプロパティにバインドします。

WritePixels(更新するWriteableBitmapの四角形,ビットマップの更新に使用するピクセル配列,pixel内の更新領域のストライド,入力バッファのオフセット)

  Private Sub RenderScreen(colorFrame As ColorImageFrame, depthFrame As DepthImageFrame)
    If Kinect Is Nothing OrElse depthFrame Is Nothing OrElse colorFrame Is Nothing Then
      Return
    End If
    TextBlock1.Text = String.Empty
    Dim depth As Integer = 0
    Dim depthPixelIndex As Integer
    Dim playerIndex As Integer
    Dim colorPixelIndex As Integer
    Dim colorPoint As ColorImagePoint
    Dim colorStride As Integer = colorFrame.BytesPerPixel * colorFrame.Width
    Dim screenImageStride As Integer = colorFrame.BytesPerPixel * depthFrame.Width
 
    Dim ImageIndex As Integer = 0
    Dim bytePlayer1 As Byte() = New Byte(depthFrame.Height * screenImageStride - 1) {}
 
    depthFrame.CopyPixelDataTo(myDepthPixelData)
    colorFrame.CopyPixelDataTo(myColorPixelData)
 
    For depthY As Integer = 0 To depthFrame.Height - 1
      Dim depthX As Integer = 0
      While depthX < depthFrame.Width
        depthPixelIndex = depthX + (depthY * depthFrame.Width)
        playerIndex = myDepthPixelData(depthPixelIndex) And DepthImageFrame.PlayerIndexBitmask
        colorPoint = Kinect.MapDepthToColorImagePoint(depthFrame.Format, depthX, depthY, myDepthPixelData(depthPixelIndex), colorFrame.Format)
        colorPixelIndex = (colorPoint.X * colorFrame.BytesPerPixel) + (colorPoint.Y * colorStride)
 
        If playerIndex <> 0 Then
          depth = myDepthPixelData(depthPixelIndex) >> DepthImageFrame.PlayerIndexBitmaskWidth 
          If depth < myDepth Then
            bytePlayer1(ImageIndex) = myColorPixelData(colorPixelIndex)
            bytePlayer1(ImageIndex + 1) = myColorPixelData(colorPixelIndex + 1)
            bytePlayer1(ImageIndex + 2) = myColorPixelData(colorPixelIndex + 2)
  
            If rightZ * 1000 < myDepth Then TextBlock1.Text = "これは右手です。"
            If leftZ * 1000 < myDepth Then TextBlock1.Text = "これは左手です。"
            If leftZ * 1000 < myDepth AndAlso rightZ * 1000 < myDepth Then TextBlock1.Text = "これは両手です。"
            If headZ * 1000 < myDepth Then TextBlock1.Text = "これは頭です。"
          End If
        End If
        depthX = depthX + 1
        ImageIndex = ImageIndex + colorFrame.BytesPerPixel
      End While
    Next
    HumanImage.WritePixels(myScreenImageRect, bytePlayer1, screenImageStride, 0)
  End Sub

Think IT会員限定特典
  • プレイヤーの身体パーツを判別するKinectサンプル

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストア アプリを多数公開中

Microsoft MVP for Development Platforms - Client App Dev (Oct 2003-Sep 2012)。Microsoft MVP for Development Platforms - Windows Phone Development(Oct 2012-Sep 2013)。Microsoft MVP for Development Platforms - Client Development(Oct 2013-Sep 2014)。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015)。

連載バックナンバー

Think IT会員サービス無料登録受付中

Think ITでは、より付加価値の高いコンテンツを会員サービスとして提供しています。会員登録を済ませてThink ITのWebサイトにログインすることでさまざまな限定特典を入手できるようになります。

Think IT会員サービスの概要とメリットをチェック

他にもこの記事が読まれています