Kinectの音声認識を使ってWebブラウザを操作するサンプル

2012年7月12日(木)
薬師寺 国安

人間の動きを捉えることでよく知られるKinectですが、音声認識の精度も高いことをご存じですか?例えば、ゲーム用のKinect for Xbox 360では、「Xbox」と声をかけることで音声認識モードになり、ジェスチャーを使わなくても、メニューの操作やゲーム内で対応している操作、また本体の電源を切ることなどができます。

Kinect for Windows SDK 1.5も、日本語の音声認識に対応しています。今回は、その音声認識を使った2つのサンプルを紹介します。

Kinectに音声認識させる

まずは「音声認識」自体のサンプルを解説していきます。

実際に音声認識を実行した動画は以下になります。あらかじめ登録しておいた言葉を喋ると、TextBlockに喋った言葉が表示されます。

音声認識の動画

サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。

プロジェクトの作成

VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。

次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_SentenceRecognize」という名前を付けています。

ツールボックスからデザイン画面上にTextBlockコントロールを1個配置します。名前はTextBlock1です。

XAMLコードはリスト1、デザイン画面は図1のようなります。

リスト1 (MainWindow.xaml)

(1)TextBlockのプロパティから[テキスト]パネルにある、TextWrappingプロパティにWrapと指定します。文字の回り込みを可能としておきます。今回の例では長い文章を登録していませんので、必須ではありません。

<Window x:Class="MainWindow"
  xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
  xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
  Title="音声認識" Height="238" Width="520">
  <Grid Height="203">
    <TextBlock Height="141" HorizontalAlignment="Left" Margin="12,36,0,0" Name="TextBlock1" Text="" VerticalAlignment="Top" Width="463" FontSize="32" FontWeight="Bold" TextWrapping="Wrap" /> ■(1)
  </Grid>
</Window>
 図1:TextBlockコントロールを1個配置した(クリックで拡大)

参照の追加

VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speechの2つです。.NETタブ内に表示されていないDLLファイルは、「参照」タブからDLLファイルを指定します。

Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。

Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。

ロジックコードを記述する

リスト2 (MainWindow.xaml.vb)

Option Strict On
Imports Microsoft.Kinect

音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。

Imports Microsoft.Speech.AudioFormat

音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。

Imports Microsoft.Speech.Recognition

Imports System.IO
Class MainWindow
  Dim kinect As KinectSensor

音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。

  Dim engine As SpeechRecognitionEngine

ウィンドウが読み込まれた時の処理

Kinectが接続されているかどうかを確認し、接続されていない場合は警告メッセージを出して処理を抜けます。

Choicesクラスは、要素を構成するための代替項目の一覧を表すクラスで、GrammarBuilder オブジェクトからのみ直接使用されます。認識させる言葉をAddメソッドで登録します。

GrammarBuilderクラスは、単純な入力から複雑な Grammar(構文情報を取得管理するクラス)を構築するためのメカニズムを提供するクラスで、登録された言葉の構文(文法)設定を行い、SpeechRecognitionEngineへと設定します。Appendメソッドで、登録した言葉を GrammarBuilder オブジェクトとして現在の GrammarBuilder に追加します。

文法のチェックされた言葉(builder)で初期化された、新しいGrammerクラスのインスタンス、myGrammerオブジェクトを作成します。Grammerクラスは、構文情報を取得および管理するためにランタイムをサポートするクラスです。

次に、SpeechRecognitionEngineクラスの新しいインスタンスengineオブジェクトを作成します。

SpeechRecognitionEngineクラスのLoadGrammerメソッドで、Grammar によって指定されたとおりに、特定の構文を同期的に読み込みます。

Kinectを開始します。

Kinectの音声インターフェースは、Kinect.AudioSourceで提供されます。Startメソッドで音声入力を開始します。入力ストリームを取得し、SpeechRecognitionEngine クラスのSetInputToDefaultAudioDeviceメソッドで、SpeechRecognitionEngine の現在のインスタンスに、システム既定のオーディオ入力を割り当てます。

複数の音声認識が可能なように、RecognizeMode.Multipleを指定して、RecognizeAsyncメソッドで非同期音声認識を開始します。

言葉が認識された際には、AddHandlerステートメントで言葉を認識した際に発生するSpeechRecognizedイベントに、イベントハンドラを指定します。言葉を認識した際には、TextBlock内にその言葉を表示します。Confidenceプロパティで音声認識の信頼度を設定します。-1が低、0が標準、1が高信頼度となります。-1を指定するとどんな言葉でも反応する恐れがあります。1を指定するとなかなか認識してくれません。今回は信頼度が0.5より大きい場合に言葉を表示するよう指定しています。

  Private Sub MainWindow_Loaded(sender As Object, e As System.Windows.RoutedEventArgs) Handles Me.Loaded
    If KinectSensor.KinectSensors.Count = 0 Then
      MessageBox.Show("Kinectが接続されておりません。")
      Exit Sub
    End If
   
    Dim sentence As Choices = New Choices
    With sentence
      .Add("おはようございます")
      .Add("こんにちわ")
      .Add("こんばんわ")
      .Add("おやすみなさい")
      .Add("何か御用ですか")
      .Add("どこに行きますか")
    End With
 
    Dim builder As GrammarBuilder = New GrammarBuilder
    builder.Append(sentence)
    Dim myGrammer As Grammar = New Grammar(builder)
    engine = New SpeechRecognitionEngine
    engine.LoadGrammar(myGrammer)
 
    AddHandler engine.SpeechRecognized, Sub(speechSender As Object, speechArgs As SpeechRecognizedEventArgs)
                      Dim confidence As Single = speechArgs.Result.Confidence 
                      If confidence > 0.5 Then
                            TextBlock1.Text = speechArgs.Result.Text 
                      End If
                              End Sub
 
    kinect = KinectSensor.KinectSensors(0)
    kinect.Start()
 
    Dim audio As KinectAudioSource = kinect.AudioSource
 
    Using s As Stream = audio.Start()
      engine.SetInputToDefaultAudioDevice()
      engine.RecognizeAsync(RecognizeMode.Multiple)
    End Using
  End Sub

ウィンドウが閉じられる時に発生するイベント

Kinectセンサーが動作している時は、StopメソッドでKinectセンサーを停止し、音声認識も停止します。最後にDisposeメソッドでリソースを解放します。

  Private Sub MainWindow_Closing(sender As Object, e As System.ComponentModel.CancelEventArgs) Handles Me.Closing
    If kinect Is Nothing = False Then
      If kinect.IsRunning = True Then
        kinect.Stop()
        engine.RecognizeAsyncStop()
        kinect.Dispose()
      End If
    End If
  End Sub
End Class

では、次に音声認識を使ってWebブラウザを操作するサンプルを紹介します。

  • Kinectに音声認識させるサンプルプログラム

  • Kinectの音声認識を使ってWebブラウザを操作するサンプル

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストア アプリを多数公開中

Microsoft MVP for Development Platforms - Client App Dev (Oct 2003-Sep 2012)。Microsoft MVP for Development Platforms - Windows Phone Development(Oct 2012-Sep 2013)。Microsoft MVP for Development Platforms - Client Development(Oct 2013-Sep 2014)。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015)。

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています