PR

Kinectの音声認識を使って、プレイヤーを分離、結合させるデモを試してみる

2012年9月14日(金)
薬師寺 国安

今回のサンプルは、音声認識によってプレイヤーの分身を作っていきます。プレイヤーの数は6名以上の分身はできなくしています。試す場合はKinectセンサーから2m離れてお試しください。

このサンプルは、前回の記事をアレンジしたものです。音声によってプレイヤーが分離したり、結合されたりします。いろいろな動作やポーズでお試しください。

実際の動きは図1と動画を参照してください。このサンプルでは最初に表示されている画像が1番となり、その前に次の画像、その前にまた次の画像・・・といった順に表示されます。例えば、腕を上げると一番背後の画像が一番目に腕を上げ、次に一番先頭の画像、次の画像・・・という順番になります。

図1:プレイヤーが音声で分身している

サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。

プロジェクトの作成

VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_EXILE_Separate」という名前を付けています。

ツールボックスからデザイン画面上にImageコントロール2個とTextBlockコントロールを1個配置します。

XAMLコードはリスト1、レイアウトは図2のようなります。

リスト1  (MainWindow.xaml)

(1)Nameがroom_imageのImageコントロールのSourceプロパティに、Room_Bitmapプロパティをバインドしています。この名前はVBコード内で定義したプロパティ名です。Widthには640、Heightには480と指定しておきます。
(2)プレイヤーを表示する領域です。

<Window x:Class="MainWindow"
    xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
    xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
    Title="MainWindow" Height="661" Width="661">
  <Grid>
    <Grid Width="646">
      <Image Name="room_image" Margin="0" Stretch="Uniform" Source="{Binding Room_Bitmap}" Width="640" Height="480"/> ■(1)
      <Image Name="personImage" Stretch="Uniform"/> ■(2)
      <TextBlock Height="32" HorizontalAlignment="Left" Name="TextBlock1"  VerticalAlignment="Top" Width="548" FontSize="18" FontWeight="Bold" Foreground="Red" Margin="58,15,0,0" />
    </Grid>
  </Grid>
</Window>
図2:各コントロールを配置した

参照の追加

VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speech、それと自作したRingBufferLibの3つです。「.NET」タブ内に表示されていないDLLファイルは「参照」タブからDLLファイルを指定します。

Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。

Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。

次に、ソリューションエクスプローラー内のDLLフォルダ内に配置しているRingBufferLib.dllも参照の追加で追加してください。既に追加済みですが、エラーが出るようであれば追加し直してください。RingBufferLib.dllのソースコードについては「これであなたもダンスグループの一員!?Kinectで自分を分身させるプログラムを作る」を参照してください。

RingBufferLib.dllではリングバッファというバッファ処理を行っています。リングバッファに関しては下記のページを参考にしてください。
→ リングバッファ(Wikipedia)

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。

ロジックコードを記述する

リスト2 (MainWindow.xaml.vb)

Option Strict On
Imports Microsoft.Kinect

RingBufferLib.dllに含まれる、RingBufferLib.Kinect_RingBuffer名前空間をインポートします。リングバッファを作成し、RGB、距離カメラ、プレイヤーインデックス配列のコピー等を行う機能を提供します。

Imports RingBufferLib.Kinect_RingBuffer

音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。

Imports Microsoft.Speech.Recognition

音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。

Imports Microsoft.Speech.AudioFormat
Imports System.IO
Class MainWindow

一個のKinectセンサーを表すメンバ変数Kinectを宣言します。

  Dim Kinect As KinectSensor

整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myScreenImageRectとmyScreenImageRect2を宣言します。領域の指定に使用されます。

  Dim myScreenImageRect As Int32Rect
  Dim myScreenImageRect2 As Int32Rect

Short型の配列メンバ変数myDepthPixelDataとByte型の配列メンバ変数myColorPixelDataを宣言しておきます。

※深度情報は、1ピクセルあたり2バイトのshort型。画像情報はフルカラーなので1ピクセルあたり4バイトのbyte型です。

  Dim myDepthPixelData As Short()
  Dim myColorPixelData As Byte()

深度の値を格納するメンバ変数targetDepthを宣言します。

  Dim targetDepth As Double

Bgr32形式は1ピクセルあたりのビット数が32bitのRGB形式で、先頭から1バイト(8bit)ずつに青、緑、赤、の情報が入っています。各カラーチャネルに割り当てられるbits per pixel(BBP)が8であるため、Bgr32を8で除算した4バイトの値をメンバ変数BrgPixelに格納しておきます。青、緑、赤では24ビットしか使用されません、残りの8ビットはAlphaに使用されることが多いです。このサンプルでもAlphaに使用しています。また32ビットを8で除算した4(バイト)を直接指定しても問題ありません。

  Dim BytesPerPixel As Integer = CInt(PixelFormats.Bgr32.BitsPerPixel / 8)

分身の数用のメンバ変数を宣言します。

  Dim maxPlayer As Integer = 0

3秒分のバッファ領域を確保します。

  Const bufferSecond As Integer = 3

  Dim screenImageStride As Integer

整数四角形の幅、高さ、および位置を表すInt32Rect構造体のメンバ変数myImageSizeを宣言します。

  Dim myImageSize As Int32Rect

リングバッファの各機能を提供するRingBuffer構造体のメンバ変数myRingBufferを宣言します。

  Dim myRingBuffer As RingBuffer

WriteableBitmapクラス型のメンバ変数myOverrayBitmapメンバ変数を宣言します。

  Dim myOverrayBitmap As WriteableBitmap

音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。

  Dim engine As SpeechRecognitionEngine

  Dim words As String

「分身」と発声するごとに1ずつ加算されるメンバ変数speechNoを宣言します。これは分身の数と一致します。

  Dim speechNo As Integer = 1

WriteableBitmapクラス型のRoom_Bitmapプロパティを定義します。

  Property Room_Bitmap As WriteableBitmap
Think IT会員限定特典
  • Kinectの音声認識でプレイヤーを分離、結合するサンプル

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストア アプリを多数公開中

Microsoft MVP for Development Platforms - Client App Dev (Oct 2003-Sep 2012)。Microsoft MVP for Development Platforms - Windows Phone Development(Oct 2012-Sep 2013)。Microsoft MVP for Development Platforms - Client Development(Oct 2013-Sep 2014)。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015)。

連載バックナンバー

Think IT会員サービス無料登録受付中

Think ITでは、より付加価値の高いコンテンツを会員サービスとして提供しています。会員登録を済ませてThink ITのWebサイトにログインすることでさまざまな限定特典を入手できるようになります。

Think IT会員サービスの概要とメリットをチェック

他にもこの記事が読まれています