MTシステム問答・応用編⑪
では、最後に文字パターンの距離をお見せします。整理の意味も含めて、順を追って説明します。
この"5"という文字は前に書いた16個の文字ですね。碁石は使っていませんが、意味は同じです。
これらの16個の文字から14種類の"変化の数"と"石の数"とを求めると以下の表が出来ます。この表は前にも見てもらいましたね。
さらに全ての2組の列の相関係数を計算すると、さきほどびっくりした相関行列を求めることができます。
ここまでで準備は出来ました。数理手順としては"逆行列"という少し専門的な計算が行なわれますけど、それはコンピュータに任せるとして、下の4個の数字パターンのマハラノビス距離を計算してみます。これらは、先の16個のパターンには無いパターンです。
なんだい、左の3つは"5"と読めるけど、右端は6じゃないか。
人間はパッとわかるんですがね。コンピュータにうまくわかるかどうかです。では計算してみましょう。マハラノビス距離は以下の通りとなります。
値の大小はわかるけど、いま一つ実感が湧かない。数字だけではよくわからんから、絵にしてみよう。文科系の人間は絵にすると理解しやすいんだ。左側にごちゃごちゃ重ねて書いたのが、基準となる5だ。こんなので良いのかい?
絵にして分り易いのは理科系も同じと思いますけどねえ。最近は理科系も文科系も関係ないことが多いんですけど。
それはそれとして、この図はまったく正しいです。こうすると、距離という概念がよくわかりますね。
そうか。私の理解は正しかったのかい?
ええ。わかってくると楽しいでしょう。
降水量と傘の売上の場合は、2次元で表せるので、距離が楕円のようにつぶれるという感覚が何となくは理解できましたよね。しかし、文字の場合は14次元ですね。相関のペアの数をちゃんと数えると、楕円が91個あることになります。91個の楕円を使って5という文字のパターンの距離を出した結果が、この図ということになります。
何、楕円が91個もあったの?
たった14個の変数でも、ペアの数は91個になります。何度も言いますが、考え方は一つで、定義通りの計算はコンピュータがやってくれます。
それで、あとはどこかに5と読めるかどうかの境界線を決めれば、パターン認識が完成します。一般論ですが、マハラノビス距離の境界線は、4あたりと言われています。つまり、4より小さければ元のデータ群の仲間と言えますし、それより大きければ仲間とは言いにくいということです。
どう見ても6という文字の距離が110になっているから、これは5とは言えないということだ。かなりいい線行っていることになるね。
その「かなりいい線」ということがパターン認識では重要なのです。パターン認識の良さを評価する方法にはいくつか方法がありますけど、人間が持つ"距離感"に近いことが一番大切なことです。人間の判断を置き換えるわけですから。
そう聞くと少し安心するな。人間の感覚に近い結果を生む技術というのは、親しみを感じるよ。
そう感じてもらえるとうれしいです。
だいぶ分かってきたので、良い本を紹介してくれないか? もっと知って、何かに使いたくなってきた。
では、その本を紹介しましょう。「入門MTシステム」 いう本です。詳しくは、このホームページの「テキスト」のボタンから見てください。