[Think IT] 第4回：音の見える化とは？ (1/3)

パルスニューラルネットワークモデルによる音源種類識別

最終回の今回は、筆者らが研究している「音の見える化」に関して解説していこう。まずは、その仕組みから解説し、実用化が進む「サウンド・ウオッチャー」について取り上げる。

筆者らの聴覚神経回路モデルでは人間の聴覚神経機構をモデル化して、蝸牛基底膜（かぎゅうきていまく）に相当するバンドパスフィルタ群を製作した。これにより、音信号を周波数チャネルごとの信号に分解した後、有毛細胞に相当する非線形変換とローパスフィルタ群によって、それぞれの振幅の包絡線を検出するのである。そして蝸牛神経に相当するパルス変換器群によって、この包絡線の強さに比例した頻度でパルス列を生成している。

すなわち、1次元信号（音圧の時間変化）である音信号は、まず周波数チャネルごとの情報（ここでは24チャネル）に分解されて、2次元的な拡がりのある信号になったのち、その振幅に比例したパルス頻度を持つパルス列に変換される。このパルス列を「第3回：パルスニューロンモデルとは？」で述べた音時間差検出回路に入力することで音源定位を実現している。

さらに筆者らは人間の脳の聴覚野における機構をモデル化することで、音源定位に用いたのと同じパルス列を用いて音源の種類をも識別する方式を考案している。周波数チャネルごとの強さに比例したパルス頻度は音の周波数スペクトル強度に対応しており、このスペクトルの特徴から音源種類を識別する。

識別モデル（詳しくは原著論文を参照）では、いずれもパルスニューラルネットワークモデルを用いて側方抑制モデルによりスペクトル特徴が強調された24チャネルのパルス列と、音のある間発火する「継続型」、音のない間発火する「抑制型」、音の開始時に発火する「オン型」、音の終了時に発火する「オフ型」のニューロンにより生成された4チャネルのパルス列を用いて音源の種類識別を行う。

各出力ニューロンの内部電位は時間的・空間的に加重され、しきい値を越えたときにニューロンが発火する。このときの各ニューロンの結合係数は「パルスニューロンモデルのための教師あり学習則」を用いて作成する。

この学習則では、「教師パルスがあり、ニューロンが発火していれば、結合係数を増加」「ニューロンは発火しているが、教師パルスがないときは結合係数を減少」というものだ。

実際の事例

ここで紹介する事例では、「緊急自動車の判別システム」を想定し、音源の種類識別を行った。音データには「パトカーのサイレン音」「救急車のサイレン音」「消防車のサイレン音」「電車踏切音」「交通信号音A（かっこう）」「交通信号音A（ピヨッー）」の6種類の音を対象とし、サンプリング周波数48kHz、量子化ビット数は16bitとした。

図1に「パトカーのサイレン音」を入力したときの24の周波数チャネルごとの強さに比例したパルス頻度を示す。音源種類識別モデルを通すことで、図1の出力結果を得ており、上記の6種類の中でパトカーのサイレン音であることを認識できていることがわかる。次のページ