2018.07.08

「説明できること」の先にある科学の未来：伊藤穰一

わたしたち人間の脳は、直観的な物理演算エンジンのような働きによって物事を予測できる。こうした「直観」は、統計的な機械学習に依存する現在の人工知能（AI）には備わっていない。もし機械が直観モデルを学習できるようになれば、科学はもうひとつ先の段階に進むのではないか──。マサチューセッツ工科大学（MIT）のメディアラボ所長・伊藤穰一による『WIRED』US版への寄稿。

All products are independently selected by our editors. If you buy something, we may earn an affiliate commission.

［編註：記事は英語による『WIRED』US版への寄稿の日本語訳］

わたしたちが積み木やクッキーのオレオが積み重なっているのを見るとき、それがどの程度安定しているかを直観的に感じ取る。倒れそうなのか、そうだとしたらどの方向に崩れ落ちるのかといったことを予測できるのだ。ここでは物体の量や質感、大きさ、形、向きといった条件を加味した極めて複雑な計算が行われている。

マサチューセッツ工科大学（MIT）教授のジョシュア・テネンバウムが率いるチームは、脳にはいわば直観的な物理演算エンジンとでも呼ぶべき能力が備わっているという仮説を立てた。人間が五感を通じて収集する情報は不明確で大量のノイズを含んでいるが、わたしたちはそれでも、その先に何が起きるのかを推測することができる。それによって外に逃げたり、米袋が倒れないように慌てて抑えたり、耳を塞いだりするのだ。

この「ノイズのあるニュートン物理学」のシステムは確率的予測に基づいており、予測が外れることもある。下の写真にある、不安定な形に積み上げられた石について考えてみよう。

PHOTO: GETTY IMAGES

脳は過去の経験から、石がこのままの状態を保つのは無理だと考える。ただ一方で、石は実際にそうなっている（これはパソコンゲームの物理演算エンジンと似ている。「グランド・セフト・オート」シリーズのようなゲームでは、プレーヤーが仮想世界の物体にどう反応していくかがシミュレーションされる）。

常識的な判断のできる人工知能（AI）はこれまで、この分野で最も難しい研究課題のひとつだった。つまり、現実世界の物事の働きやその関係を「理解」し、その目的や因果関係、意味をくみ取ることのできるAIである。

AIは長年にわたって驚くべき進化を遂げてきたが、実用化されているものの大半は統計的な機械学習を基にしている。ワークモデルを構築するには、例えば大量の画像といった学習データを必要とする。人間がそれぞれのデータに「猫」や「犬」といったラベル付けをしてやると、ニューラルネットワークはそれを参照し、特定の画像が何であるかを推測するようになる。うまくいけば、人間と同程度の正確さに達することが可能だ。

この統計モデルに完全に欠けているもののひとつが、データの中身の理解である。AIは写真に写っている犬が動物で、ときにはクルマを追いかけたりするということを知らない。そのため、この種のシステムで正確なモデルを構築するには、大量のデータが必要になる。システムは画像のなかで何が起きているのかを理解するのではなく、パターン認識に近いことをしているからだ。それは「学習」に対する総当たり的なアプローチで、高速なコンピューターと膨大な量のデータセットが手に入るようになったことで実現した。

現実世界との相互作用が意味すること

機械学習は子どもの学習の仕方とも大きく異なる。それを説明するために、テネンバウムがよく引き合いに出す動画がある。ドイツのマックス・プランク進化人類学研究所の所長を務めるマイケル・トマセロと、フェリクス・ヴァルネケン、フランシス・チェンが共同で作成したもので、大人の男性と小さな男の子の意思疎通に関するものだ。

男性は扉の付いた戸棚の前に立ち、手に持っている数冊の本を扉に何回か当てる。そばでその様子を見ていた男の子が、男性はその本を戸棚にしまいたいのだと理解し、戸棚の扉を開けてくれる。男の子の仕草が何ともかわいらしいのだが、それはともかく、ここで示された目の前で起きていることを見て解決策を思いつくというのは、人間にしかできないことだ。

男性の行動を見ていた男の子は、その場の状況を本能的につかんでいる。戸棚には扉がある。蝶番が付いているから、取っ手を手前に引けば扉が開くはずだ。一方で、男性は本を何回も戸棚にぶつけている。男の子は目の前にある物体や、そこで起こっていることを観察するだけでなく、男性の意図は何かを考える。「彼は何かをやりたいけれど、うまくいかないのだろう」と推測するのだ。

男の子が扉を開けるという行動に出るには、「人間が何かをしているときには計画や意図があり、それを達成するために他者による助けを必要とすることがある」ということを理解していなければならない。人間の子どもには複雑な概念を学習し、その概念を現実の世界に当てはめる能力が生まれつき備わっているのだ。子どもは誰に指図されることもなく、この能力を自然に発揮する。

わたし自身にも小さな娘がいるが、彼女も現実世界との相互作用を通じて学習していく。まるで脳の内部にあるさまざまな演算装置やシミュレーターといったものをトレーニングをしているかのようだが、そのひとつが（テネンバウムの言葉を借りれば）物理演算エンジンなのだろう。

このシステムは、積み木で遊んだりコップをひっくり返したり、椅子から落ちたりすることで、重力や摩擦の法則などのニュートン力学が、わたしたちの生活にどのように現れるかを理解する。そして、自分はこの世界で物理的には何ができるのかについて、基本的なパラメーターを身につけていくのだ。

子どもはこれに加えて、生まれたばかりのときから社会的エンジンとでもいうべき能力を示す。他者の顔を認識し、視線を追い、現実世界における社会的対象の考え方や振る舞い、そしてそれらが互いにどう作用していくのかを把握しようとする。

専門家が直観の役割を過小評価する理由

ワシントン大学教授のパトリシア・クールは、幼児の言語習得をめぐり「ソーシャル・ゲーティング」という仮説を立てた。人間の言語能力は、乳幼児期に周囲の世界とのやりとりを通じて養われる社会的理解力の発達と結び付いている、というのだ。また、ハーヴァード大学の認知心理学者エリザベス・スペルキは、乳幼児がどのようにして、生後10カ月といった早い時期から他者の目的を推測する「直観的心理学」を構築していくのか研究している。

ノーベル経済学賞の受賞者で行動経済学の大家ダニエル・カーネマンは著書『ファスト＆スロー』のなかで、人間の脳の直感的な部分は数学や統計といったことはあまり得意ではないと書いている。カーネマンは以下のような例を用いて、このことを説明する。

野球のバットとボールがセットで1.1ドルで売られている。バットはボールより1ドル高い。さて、ボールはいくらだろう。多くの人が直観的に、10セントだと思うのではないだろうか。それは間違っている。ボールが10セントでバットはボールより1ドル高いなら、バットは1.1ドルだから、両方合わせれば価格は1.2ドルになる。正しい答えは、ボールが5セントでバットが1.05ドル。これなら合計は1.1ドルだ。

ここから明らかなように、直感は数字に関しては騙されやすい性質がある。自然界にある積み重なった石が、わたしたちの脳の物理演算エンジンを混乱させるのと同じだ。

学者や経済の専門家たちは、科学や学術研究における直観の役割を過小評価する理由として、バットとボールの例を持ち出してくる。しかし、これは大きな間違いだ。直感は物理的および社会的状況を素早く判断するのに使われるが、このとき脳は説明が不可能なほどに複雑な演算処理を行っている。こうした計算を数学的に書き出して実行することはできない。

例えばスキーが上手な人でも、滑っているときに自分が具体的に何をしているのか説明するのは難しいし、入門書を読んだだけでスキーができるようにはならない。脳と体は一緒になって動き、同調し、非常に複雑な方法で何かを学ぶ。成功すれば、直線的な思考を介さなくても、一連の動きが流れるようにできるようになる。

人間の脳は乳幼児期にとてつもない変化を遂げる。赤ん坊の脳では成人の2倍の数のシナプスが形成されている。そして脳が成熟するに従って神経同士のつながりは整理され、知覚の対象となる複雑なシステムの直観的理解力が養われる。階段、母親、父親、友達、クルマ、雪山といったものがわかるようになるのだ。

さらに成長すれば、波の細かな違いを見分けて大海原を航海できるようになるかもしれない。さまざまな種類の雪を研究する者もいるだろう。一方で、脳が重要でないとみなしたシナプスは淘汰されていく。

自然の声を聞けるシャーマンは「原始的」なのか

言葉を用いて何かを説明し、議論し、互いに理解する能力は非常に重要だ。ただ一方で、言語は単純化された表現手段であり、受け手によって違った意味合いをもつ場合があるということも理解しておく必要がある。わたしたちが知っていることや考えていることの多くは、言語化できない。何かを言葉で表すとき、それは実際の考えや理解の概要でしかないのだ。

どうやって滑っているのか説明できないスキー選手を否定するのが愚かであるのと同様に、事物のバランスが崩れているという自然の声を聞くことのできるシャーマンの直観をないがしろにすべきではない。先住民たちの鋭敏な感覚や彼らの自然との結び付きを「原始的」と見なす価値観の背後には、彼らはこういったものを言葉で説明できないし、わたしたちはそれを理解できないという現実がある。ただ実際のところは、彼らがもっているような自然を知覚する直観が、わたしたちには備わっていないだけかもしれないのだ。

わたしたちの脳は、自然の声を理解する神経細胞を退化させてしまったのかもしれない。そういったものは都市での生活には必要ないからだ。わたしたちは人生のほとんどを読書やコンピューターのスクリーンを見つめることに費やし、個室で座って世界を理解するための教育を受ける。

その結果として、世界を数学的あるいは経済的に説明する能力は身につくだろう。だとしても、その能力によって世界を正確に把握していると断言できるだろうか。わたしたちの脳は生態系のようなものについて、幼い頃から大自然に囲まれて育った脳、つまり自然を直感的に理解できる脳よりも、よくわかっているのだろうか。

機械が「直観モデル」を学習できる日

思い切って謙虚になってみてはどうだろう。わたしたちが「無知」とみなしている人たちの非直線的かつ直感的な思考を取り入れる努力をすれば、物事の仕組みを知り、解決は不可能と考えられている問題に対処するうえで、大きな進展があるかもしれない。彼らは教科書からではなく、実践し観察することで学習してきたのだ。

これは多様性をめぐる議論でもある。還元主義である数学や経済モデルは工学的観点からは便利だが、複雑適応系（CAS）をこうしたモデルで記述するには限界があることは覚えておくべきだ。そこには直感の入り込む余地がなく、人間の経験において感覚的なものが果たす役割を軽視してしまう危険がある。

テネンバウムと彼のチームが直観モデルを学習できる機械の開発に成功したら、いまは説明できないもの、もしくは複雑すぎて既存の理論やツールでは理解できないものについて、何らかの答えを出すことが可能になるかもしれない。機械学習やAIの説明可能性や、また先住民たちが自然とどのように関わっているかの研究において、わたしたちは「説明できること」の特異点に達するだろう。

それを超えたところに科学の未来がある。わたしたちはこれまでの世界認識を超越する何かを発見し、先へと進んで行くのだ。

伊藤穰一｜JOI ITO
1966年生まれ。起業家、ヴェンチャーキャピタリスト。『WIRED』US版アイデアズ・コントリビューターも務める。2011年よりマサチューセッツ工科大学（MIT）メディアラボ所長。著書にジェフ・ハフとの共著『9プリンシプルズ』〈早川書房〉、『教養としてのテクノロジー』〈NHK出版〉など。

伊藤穰一によるコラムのバックナンバー

TEXT BY JOI ITO

EDITED BY CHIHIRO OKA