ご挨拶日本精神衛生会とはご入会のご案内資料室本会の主な刊行物リンク集行事予定

こころの健康シリーズZ 21世紀のメンタルへルス

No.9 コミュニケーションロボットの進化と人間の関わり

公立はこだて未来大学  松原 仁


音声対話システム

 ここまでの話は「行動」を伴わない、すなわち音声および身体を含まない対話についてであった(音声を発するという発話も「行動」に含まれる)。コミュニケーションロボットは対話システムというソフトウェアに音声と身体を付加したものである。 人工知能の研究が1950年代に始まって1980年代ぐらいまではもっぱらソフトウェアのみを対象としていた。記号の処理(思考)こそが知能の本質という考え方(SimonとNewellの「物理記号システム仮説」が元になっている)に基づいていたのである。その後知能とは感覚―思考―行動というサイクルが回っていることであるという考え方(Brooksの「行動に基づく知能仮説」が元になっている)が主流になってきた。環境を認識し、認識の結果に基づいて考えて、その考えに基づいて行動する(環境に働きかける)、という過程の全体が知能であるということである。だとすれば知能にとって身体を持っていることが必要になる。音声による人間とコンピュータの対話は、人間が発話した音声を認識し、認識の結果に基づいて考えて、その考えに基づいてコンピュータが発話する、のサイクルになる。音声認識の研究は1950年代からずっと行われてきたものの、人間の発話を人間に近いレベルで認識するのは非常にむずかしく、音声対話システムは長い間実現できなかった。

 音声対話システムの性能を飛躍的に向上させたのは機械学習の一つであるディープラーニングである。ディープラーニングは人間の神経回路網をコンピュータ上にシミュレーションしようという試みの最先端のものである。これ自体は2006年にHintonによって初めて提案されたものであるが、その原型は1950年代に提案されたパーセプトロンにある。パーセプトロンも人間の神経回路網のシミュレーションであるが、当時のコンピュータの性能が貧弱だったために入力層と出力層の2つの層しか存在しなかった。それでは人間に比べてはるかに劣る性能しか出せなかったのである。1980年代になってパーセプトロンを拡張したニューラルネットワークが出現した。ニューラルネットワークは入力層、中間層、出力層と3つの層になった。2つの層のパーセプトロンよりも能力は高かったものの、人間の能力には及ばなかった。コンピュータの性能が1950年代よりかなりよくなったものの、まだそれほどではなかったのである。ディープラーニングはニューラルネットワークを拡張して4層以上にしたものである。層が深くなったのでディープラーニング(日本語では深層学習)と呼ばれる。コンピュータの性能が向上したので4層以上のネットワークのシミュレーションが可能になったのである。ディープラーニングを動かすためのコンピュータとしてはGPUがよく用いられる。GPUはGraphicProcessing Unitのことで、もともとはゲーム用の3次元グラフィックスを早くきれいに描写するために開発されたコンピュータであるが、ディープラーニングの計算に向いていることがわかった。最高レベルの性能のGPUを用いることによって、たとえば囲碁のプログラムでは80層のディープラーニングも試みられている。

 このディープラーニングを用いることで音声認識の精度が格段によくなり、それによって音声対話システムが使い物になるようになってきた。人間同士はふつう音声で対話をするので、書かれた文字による対話システムよりも音声による対話システムの方がはるかになじみやすい。前述したチューリングテストの設定で不自然なのは対話がキーボードとディスプレイという手段で行なわれることであった。コンピュータの音声認識についてはかなりの程度よくなったものの、コンピュータの音声発生の方がまだ人間のレベルより劣るためにチューリングテストを音声対話で行なうことはできない。コンピュータが発話したことが試験官に容易にわかってしまうからである。音声発生は人工知能の研究対象ではないが、コンピュータの音声が人間の音声並みにならない限りは音声対話のチューリングテストは実現できない。

身体性/おわりに

はじめに/対話システムとチューリングテスト
音声対話システム
身体性/おわりに

ご挨拶 | 日本精神衛生会とは | ご入会の案内 | 資料室 | 本会の主な刊行物 | リンク集 | 行事予定