Kinectの音声認識を使って、プレイヤーを分離、結合させるデモを試してみる

2012年9月14日(金)
薬師寺 国安

今回のサンプルは、音声認識によってプレイヤーの分身を作っていきます。プレイヤーの数は6名以上の分身はできなくしています。試す場合はKinectセンサーから2m離れてお試しください。

このサンプルは、前回の記事をアレンジしたものです。音声によってプレイヤーが分離したり、結合されたりします。いろいろな動作やポーズでお試しください。

実際の動きは図1と動画を参照してください。このサンプルでは最初に表示されている画像が1番となり、その前に次の画像、その前にまた次の画像・・・といった順に表示されます。例えば、腕を上げると一番背後の画像が一番目に腕を上げ、次に一番先頭の画像、次の画像・・・という順番になります。

図1:プレイヤーが音声で分身している

サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。

プロジェクトの作成

VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_EXILE_Separate」という名前を付けています。

ツールボックスからデザイン画面上にImageコントロール2個とTextBlockコントロールを1個配置します。

XAMLコードはリスト1、レイアウトは図2のようなります。

リスト1  (MainWindow.xaml)

(1)Nameがroom_imageのImageコントロールのSourceプロパティに、Room_Bitmapプロパティをバインドしています。この名前はVBコード内で定義したプロパティ名です。Widthには640、Heightには480と指定しておきます。
(2)プレイヤーを表示する領域です。

<Window x:Class="MainWindow"
    xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
    xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
    Title="MainWindow" Height="661" Width="661">
  <Grid>
    <Grid Width="646">
      <Image Name="room_image" Margin="0" Stretch="Uniform" Source="{Binding Room_Bitmap}" Width="640" Height="480"/> ■(1)
      <Image Name="personImage" Stretch="Uniform"/> ■(2)
      <TextBlock Height="32" HorizontalAlignment="Left" Name="TextBlock1"  VerticalAlignment="Top" Width="548" FontSize="18" FontWeight="Bold" Foreground="Red" Margin="58,15,0,0" />
    </Grid>
  </Grid>
</Window>
図2:各コントロールを配置した

参照の追加

VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speech、それと自作したRingBufferLibの3つです。「.NET」タブ内に表示されていないDLLファイルは「参照」タブからDLLファイルを指定します。

Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。

Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。

次に、ソリューションエクスプローラー内のDLLフォルダ内に配置しているRingBufferLib.dllも参照の追加で追加してください。既に追加済みですが、エラーが出るようであれば追加し直してください。RingBufferLib.dllのソースコードについては「これであなたもダンスグループの一員!?Kinectで自分を分身させるプログラムを作る」を参照してください。

RingBufferLib.dllではリングバッファというバッファ処理を行っています。リングバッファに関しては下記のページを参考にしてください。
→ リングバッファ(Wikipedia)

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。

ロジックコードを記述する

リスト2 (MainWindow.xaml.vb)

Option Strict On
Imports Microsoft.Kinect

RingBufferLib.dllに含まれる、RingBufferLib.Kinect_RingBuffer名前空間をインポートします。リングバッファを作成し、RGB、距離カメラ、プレイヤーインデックス配列のコピー等を行う機能を提供します。

Imports RingBufferLib.Kinect_RingBuffer

音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。

Imports Microsoft.Speech.Recognition

音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。

Imports Microsoft.Speech.AudioFormat
Imports System.IO
Class MainWindow

一個のKinectセンサーを表すメンバ変数Kinectを宣言します。

  Dim Kinect As KinectSensor

整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myScreenImageRectとmyScreenImageRect2を宣言します。領域の指定に使用されます。

  Dim myScreenImageRect As Int32Rect
  Dim myScreenImageRect2 As Int32Rect

Short型の配列メンバ変数myDepthPixelDataとByte型の配列メンバ変数myColorPixelDataを宣言しておきます。

※深度情報は、1ピクセルあたり2バイトのshort型。画像情報はフルカラーなので1ピクセルあたり4バイトのbyte型です。

  Dim myDepthPixelData As Short()
  Dim myColorPixelData As Byte()

深度の値を格納するメンバ変数targetDepthを宣言します。

  Dim targetDepth As Double

Bgr32形式は1ピクセルあたりのビット数が32bitのRGB形式で、先頭から1バイト(8bit)ずつに青、緑、赤、の情報が入っています。各カラーチャネルに割り当てられるbits per pixel(BBP)が8であるため、Bgr32を8で除算した4バイトの値をメンバ変数BrgPixelに格納しておきます。青、緑、赤では24ビットしか使用されません、残りの8ビットはAlphaに使用されることが多いです。このサンプルでもAlphaに使用しています。また32ビットを8で除算した4(バイト)を直接指定しても問題ありません。

  Dim BytesPerPixel As Integer = CInt(PixelFormats.Bgr32.BitsPerPixel / 8)

分身の数用のメンバ変数を宣言します。

  Dim maxPlayer As Integer = 0

3秒分のバッファ領域を確保します。

  Const bufferSecond As Integer = 3

  Dim screenImageStride As Integer

整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myImageSizeを宣言します。

  Dim myImageSize As Int32Rect

リングバッファの各機能を提供するRingBuffer構造体のメンバ変数myRingBufferを宣言します。

  Dim myRingBuffer As RingBuffer

WriteableBitmapクラス型のメンバ変数myOverrayBitmapメンバ変数を宣言します。

  Dim myOverrayBitmap As WriteableBitmap

音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。

  Dim engine As SpeechRecognitionEngine

  Dim words As String

「分身」と発声するごとに1ずつ加算されるメンバ変数speechNoを宣言します。これは分身の数と一致します。

  Dim speechNo As Integer = 1

WriteableBitmapクラス型のRoom_Bitmapプロパティを定義します。

  Property Room_Bitmap As WriteableBitmap
  • Kinectの音声認識でプレイヤーを分離、結合するサンプル

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストア アプリを多数公開中

Microsoft MVP for Development Platforms - Client App Dev (Oct 2003-Sep 2012)。Microsoft MVP for Development Platforms - Windows Phone Development(Oct 2012-Sep 2013)。Microsoft MVP for Development Platforms - Client Development(Oct 2013-Sep 2014)。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015)。

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています