PR

Kinectの音声認識を使ってWebブラウザを操作するサンプル

2012年7月12日(木)
薬師寺 国安

人間の動きを捉えることでよく知られるKinectですが、音声認識の精度も高いことをご存じですか?例えば、ゲーム用のKinect for Xbox 360では、「Xbox」と声をかけることで音声認識モードになり、ジェスチャーを使わなくても、メニューの操作やゲーム内で対応している操作、また本体の電源を切ることなどができます。

Kinect for Windows SDK 1.5も、日本語の音声認識に対応しています。今回は、その音声認識を使った2つのサンプルを紹介します。

Kinectに音声認識させる

まずは「音声認識」自体のサンプルを解説していきます。

実際に音声認識を実行した動画は以下になります。あらかじめ登録しておいた言葉を喋ると、TextBlockに喋った言葉が表示されます。

音声認識の動画

サンプル一式は、会員限定特典としてダウンロードできます。記事末尾をご確認ください。

プロジェクトの作成

VS 2010のメニューから[ファイル(F)/新規作成(N)/プロジェクト(P)]と選択します。

次に、「WPF アプリケーション」を選択して、「名前(N)」に任意のプロジェクト名を指定します。ここでは「KINECT_SentenceRecognize」という名前を付けています。

ツールボックスからデザイン画面上にTextBlockコントロールを1個配置します。名前はTextBlock1です。

XAMLコードはリスト1、デザイン画面は図1のようなります。

リスト1 (MainWindow.xaml)

(1)TextBlockのプロパティから[テキスト]パネルにある、TextWrappingプロパティにWrapと指定します。文字の回り込みを可能としておきます。今回の例では長い文章を登録していませんので、必須ではありません。

<Window x:Class="MainWindow"
  xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
  xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
  Title="音声認識" Height="238" Width="520">
  <Grid Height="203">
    <TextBlock Height="141" HorizontalAlignment="Left" Margin="12,36,0,0" Name="TextBlock1" Text="" VerticalAlignment="Top" Width="463" FontSize="32" FontWeight="Bold" TextWrapping="Wrap" /> ■(1)
  </Grid>
</Window>
 図1:TextBlockコントロールを1個配置した(クリックで拡大)

参照の追加

VS2010のメニューから「プロジェクト(P)/参照の追加(R)」と選択して、各種コンポーネントを追加しておきます。今回追加するのは、Microsoft.KinectとMicrosoft.Speechの2つです。.NETタブ内に表示されていないDLLファイルは、「参照」タブからDLLファイルを指定します。

Microsoft.Kinect.dllは、C:\Program Files\Microsoft SDKs\Kinect\v1.5\Assemblies内に存在しますので、これを指定します。

Microsoft.Speech.dllは
C:\Windows\assembly\GAC_MSIL\Microsoft.Speech\11.0.0.0__31bf3856ad364e35\
に存在しますので、これを指定してください。このassemblyフォルダ内のGAC_MSILフォルダは「参照の追加(R)」の「参照」タブからでないと参照できません。マイコンピューターからは、このフォルダは表示されませんので注意してください。

次に、ソリューションエクスプローラー内のMainWindow.xamlを展開して表示される、MainWindow.xaml.vbをダブルクリックしてリスト2のコードを記述します。

ロジックコードを記述する

リスト2 (MainWindow.xaml.vb)

Option Strict On
Imports Microsoft.Kinect

音声認識用のオーディオ形式を表すクラスが含まれる、Microsoft.Speech.AudioFormat名前空間をインポートします。

Imports Microsoft.Speech.AudioFormat

音声認識を実装するためのクラスが含まれる、Microsoft.Speech.Recognition名前空間をインポートします。

Imports Microsoft.Speech.Recognition

Imports System.IO
Class MainWindow
  Dim kinect As KinectSensor

音声認識サービスを実行するためのアクセス権を提供するクラスである、SpeechRecognitionEngineクラス用メンバ変数engineを宣言します。

  Dim engine As SpeechRecognitionEngine

ウィンドウが読み込まれた時の処理

Kinectが接続されているかどうかを確認し、接続されていない場合は警告メッセージを出して処理を抜けます。

Choicesクラスは、要素を構成するための代替項目の一覧を表すクラスで、GrammarBuilder オブジェクトからのみ直接使用されます。認識させる言葉をAddメソッドで登録します。

GrammarBuilderクラスは、単純な入力から複雑な Grammar(構文情報を取得管理するクラス)を構築するためのメカニズムを提供するクラスで、登録された言葉の構文(文法)設定を行い、SpeechRecognitionEngineへと設定します。Appendメソッドで、登録した言葉を GrammarBuilder オブジェクトとして現在の GrammarBuilder に追加します。

文法のチェックされた言葉(builder)で初期化された、新しいGrammerクラスのインスタンス、myGrammerオブジェクトを作成します。Grammerクラスは、構文情報を取得および管理するためにランタイムをサポートするクラスです。

次に、SpeechRecognitionEngineクラスの新しいインスタンスengineオブジェクトを作成します。

SpeechRecognitionEngineクラスのLoadGrammerメソッドで、Grammar によって指定されたとおりに、特定の構文を同期的に読み込みます。

Kinectを開始します。

Kinectの音声インターフェースは、Kinect.AudioSourceで提供されます。Startメソッドで音声入力を開始します。入力ストリームを取得し、SpeechRecognitionEngine クラスのSetInputToDefaultAudioDeviceメソッドで、SpeechRecognitionEngine の現在のインスタンスに、システム既定のオーディオ入力を割り当てます。

複数の音声認識が可能なように、RecognizeMode.Multipleを指定して、RecognizeAsyncメソッドで非同期音声認識を開始します。

言葉が認識された際には、AddHandlerステートメントで言葉を認識した際に発生するSpeechRecognizedイベントに、イベントハンドラを指定します。言葉を認識した際には、TextBlock内にその言葉を表示します。Confidenceプロパティで音声認識の信頼度を設定します。-1が低、0が標準、1が高信頼度となります。-1を指定するとどんな言葉でも反応する恐れがあります。1を指定するとなかなか認識してくれません。今回は信頼度が0.5より大きい場合に言葉を表示するよう指定しています。

  Private Sub MainWindow_Loaded(sender As Object, e As System.Windows.RoutedEventArgs) Handles Me.Loaded
    If KinectSensor.KinectSensors.Count = 0 Then
      MessageBox.Show("Kinectが接続されておりません。")
      Exit Sub
    End If
   
    Dim sentence As Choices = New Choices
    With sentence
      .Add("おはようございます")
      .Add("こんにちわ")
      .Add("こんばんわ")
      .Add("おやすみなさい")
      .Add("何か御用ですか")
      .Add("どこに行きますか")
    End With
 
    Dim builder As GrammarBuilder = New GrammarBuilder
    builder.Append(sentence)
    Dim myGrammer As Grammar = New Grammar(builder)
    engine = New SpeechRecognitionEngine
    engine.LoadGrammar(myGrammer)
 
    AddHandler engine.SpeechRecognized, Sub(speechSender As Object, speechArgs As SpeechRecognizedEventArgs)
                      Dim confidence As Single = speechArgs.Result.Confidence 
                      If confidence > 0.5 Then
                            TextBlock1.Text = speechArgs.Result.Text 
                      End If
                              End Sub
 
    kinect = KinectSensor.KinectSensors(0)
    kinect.Start()
 
    Dim audio As KinectAudioSource = kinect.AudioSource
 
    Using s As Stream = audio.Start()
      engine.SetInputToDefaultAudioDevice()
      engine.RecognizeAsync(RecognizeMode.Multiple)
    End Using
  End Sub

ウィンドウが閉じられる時に発生するイベント

Kinectセンサーが動作している時は、StopメソッドでKinectセンサーを停止し、音声認識も停止します。最後にDisposeメソッドでリソースを解放します。

  Private Sub MainWindow_Closing(sender As Object, e As System.ComponentModel.CancelEventArgs) Handles Me.Closing
    If kinect Is Nothing = False Then
      If kinect.IsRunning = True Then
        kinect.Stop()
        engine.RecognizeAsyncStop()
        kinect.Dispose()
      End If
    End If
  End Sub
End Class

では、次に音声認識を使ってWebブラウザを操作するサンプルを紹介します。

Think IT会員限定特典
  • Kinectに音声認識させるサンプルプログラム

  • Kinectの音声認識を使ってWebブラウザを操作するサンプル

薬師寺国安事務所

薬師寺国安事務所代表。Visual Basic プログラミングと、マイクロソフト系の技術をテーマとした、書籍や記事の執筆を行う。
1950年生まれ。事務系のサラリーマンだった40歳から趣味でプログラミングを始め、1996年より独学でActiveXに取り組む。1997年に薬師寺聖とコラボレーション・ユニット PROJECT KySS を結成。2003年よりフリーになり、PROJECT KySS の活動に本格的に参加、.NETやRIAに関する書籍や記事を多数執筆する傍ら、受託案件のプログラミングも手掛ける。Windows Phoneアプリ開発を経て、現在はWindows ストア アプリを多数公開中

Microsoft MVP for Development Platforms - Client App Dev (Oct 2003-Sep 2012)。Microsoft MVP for Development Platforms - Windows Phone Development(Oct 2012-Sep 2013)。Microsoft MVP for Development Platforms - Client Development(Oct 2013-Sep 2014)。Microsoft MVP for Development Platforms-Windows Platform Development (Oct 2014-Sep 2015)。

連載バックナンバー

Think IT会員サービス無料登録受付中

Think ITでは、より付加価値の高いコンテンツを会員サービスとして提供しています。会員登録を済ませてThink ITのWebサイトにログインすることでさまざまな限定特典を入手できるようになります。

Think IT会員サービスの概要とメリットをチェック

他にもこの記事が読まれています