[Think IT] 第2回：ニューラルネットワークの構造を知る！ (3/3)

バックプロパゲーションの限界

バックプロパゲーションによる学習は、誤差が小さくなる方向に結合係数を変化させるという一種の最急降下法である。しかし、必ずしも誤差が最も小さくなるところで結合係数の変化が止まるといえない。つまり、結合係数を変化させるはじめの位置によっては、最小値にはならないこともあるということである。

極小値のことをローカルミニマムといい、誤差が最も小さくなる最小値をグローバルミニマムという。このとき、誤差のローカルミニマムに入り込むとそれ以上誤差が減少しなくなり、グローバルミニマム（誤差が最小になる状態）に到達できなくなるようなことが起きる。このようなローカルミニマムに陥ることがバックプロパゲーションの欠点である。

例えば、漢字120文字（入力として16x16ドットフォントイメージ）を識別する階層型ネットワークの場合、その学習を実際に行ってみると誤差がある程度以下には下がらすローカルミニマムの状態に陥ってしまう。このときには学習データすらも完全に識別することはできない。何千個もある漢字のうち高々120個、それも単一のフォントを識別させようとしてもローカルミニマムの問題にぶつかってしまう。

結合重みの初期値を変えるとか、中間層ニューロンの数を変えるなどして何回も繰り返しているうちにうまく収束させることもできるかもしれないが、何千個もの漢字をすべてそれもマルチフォントとか手書き文字を識別するネットワークを構築するのは至難の技と言わざるを得ない。しかし、必ず解はあるので希望は捨ててはいけないが、大規模なネットワークになると宝探しの宝を発見する確率がだんだん下がっていき、実験効率が極端に悪くなる。すなわち、バックプロパゲーションといえども万能ではないのである。

大規模櫛型ニューラルネットCombNET

そのような分類カテゴリの多い大規模なネットワークの学習では、ローカルミニマムに陥る可能性も高く、たとえ収束するにせよ膨大な計算量を費すことになる。実際にこれまでに行われたニューラルネットワークに関する研究では、分類カテゴリ数の少ない比較的小規模なニューラルネットを取り扱っている。そのため、実用的で大規模なニューラルネットに対して、これらの成果をそのまま拡張できるかは疑問である。

大規模なニューラルネットを実用的な計算時間で構築するために考えられる1つの方法は、ニューラルネットのシミュレーションを高速に実行できるプロセッサを用いることである。しかし、ネットワークを学習の行いやすい小規模なネットワークに分割し、それらの統合として大規模なネットワークを構築することも必要である。

筆者らは、このような大規模ニューラルネットワークの構築手法に関して別の手法を提案している。これは前段に入力データを大分類するためのベクトル量子化ニューラルネット（Stem Network）を配置し、後段にはグループ内のデータを細分類する階層型ニューラルネット（Branch Network）を多数並列に配置したものである。これによって前段で大まかなグループ分けを行い、後段でグループ内での識別を行うネットワークを構築する。この大規模櫛型ニューラルネットワークモデルをCombNETと名付けている（図3）。

CombNETにおけるStem Networkは、入力を類似したグループに分割（ベクトル量子化）する役割を担う。Branch Networkは、Stem Networkにより大分割された部分空間内を細分割し、そこに存在するカテゴリを個別に識別する境界を形成する。それぞれのBranch Networkが担当するカテゴリ数はそれほど多くならず、従ってBranch Networkの規模は小さく学習の収束は容易になり、全体として多数のカテゴリを識別する大規模なネットワークを安定に構築することができる。

CombNETは大分類だけをベクトル量子化ネットで行うため、ベクトル量子化ネットのニューロン数も比較的少なく、後段のBranch Networkもそれぞれが小数のカテゴリを分類するネットワークになるので、全体のネットワーク規模を小さくすることができ、ローカルミニマムに陥ることもなく、計算速度もそれだけ速くなるのである。

以上、階層型ニューラルネットワークとその学習法としてバックプロパゲーション、大規模櫛形ニューラルネットワークモデルCombNETについて概説した。ニューラルネットワークは簡便でかつ強力なパターン認識機械として多くの分野で使われている。皆さんもぜひお試しいただきたい。

次週は、よりハードウエア化に適したモデルとしてパルスニューラルネットワークを紹介する。

最後に、BPの原著論文については、「D.E.Rummelhart, J.L.McClelland, and the PDP Research Group,Parallel Distributed Processing,MIT Press,1986」、CombNETの原著論文は、「1.岩田、堀田、松尾、鈴村：大規模４層ニューラルネット "CombNET"、電子情報通信学会論文誌、J73-D-II(9),1261-1267(1990)」「2.岩田、堀田、松尾、鈴村：大規模ニューラルネット "CombNET-II"、電子情報通信学会論文誌、J75-D-II(3),545-553(1992)」「3. KUGLER, M., KUROYANAGI, S., NUGROHO, A. S., IWATA, A. “CombNET-III with Nonlinear Gating Network and its Application in Large-Scale Classification Problems”, IEICE Transactions on Information & Systems, vol.E91-D, no.2, pp. 286-295, February 2008.」となる。タイトルへ戻る