Valid XHTML + RDFa Creative Commons License
はだかの王様の経済学

原文はこちら、(c) Copyright JASSS
JASSS logo

アクセルロッド『対立と協調の科学』書評:「しっぺ返し」はそんなにすごいものではありません

Ken Binmore
ELSE, Economics Department, University College London. (1998, JASSS vol 1, no 1.)

要約:ゲーム理論の偉い人、ビンモアによるアクセルロッド&「しっぺ返し戦略」称揚に対する強い批判。アクセルロッドは前著『つきあい方の科学』で反復型囚人のジレンマゲームのコンテストを開催し、ラポポートの「しっぺ返し」戦略がもっとも有力だった(そしてそれを進化型ゲームに適用しても有力だった)ということを根拠に、しっぺ返しがあらゆる協力の発生と成長の根幹となる原理だ、といわんばかりの主張を行い、それが一人歩きしている。でもこれが成功するのはごく一部の状況で、安易に一般化できるものではない。またこれはアクセルロッド/ラポポートよりはるか以前にゲーム理論で示されていることでしかない。さらにアクセルロッドはコンピュータシミュレーションばかりにこだわり、ゲーム理論からの指摘に一切耳を傾けていない。『対立と協調の科学』はそうした欠点のため、きわめて不満の多い不十分なものとなっている。


ロバート・アクセルロッドの近著『対立と協調の科学』(ダイヤモンド社、原著 Complexity of Cooperation) は、名高い『つきあい方の科学』(ミネルヴァ社、原著 Evolution of Cooperation (1984)) の続編にあたる。この新著ではこの問題に関するかれの 1984 年以来の論文の更新版が採録され、それの背景を説明したコメントがつけられている。

 アクセルロッドが『つきあい方の科学』で「しっぺ返し (TIT-FOR-TAT)」戦略を絶賛したために、当人すら夢にも思わなかったほどの成果をアクセルロッドの手柄だとする偶像崇拝者から、かれの成果をただの大風呂敷として一蹴する懐疑論者まで、すさまじい幅の文献が出現することとなった。前者の例は Watson 著 (1995, p. 182) Dark Natureに登場する:

1997 年にアクセルロッドがそれ(しっぺ返し戦略)を発見し、少なくともわれわれの知る限り、この戦略だけが安定で、競合プログラムのあらゆる侵略に抵抗できるものである。そしてこれはきわめて重要な発見だった(後略)

 こうした科学解説者からの英雄崇拝に対して、経済学者やゲーム理論家からの苦々しげな言及も比較するべきだろう。たとえば Martinez-Coll と Hirshleifer (1991) はこう述べる:

 反復囚人のジレンマ状況における進化的競争に関するアクセルロッドの研究を主要因として、かなりとんでもない主張が広く受け入れられるようになっている。すなわち、通称「しっぺ返し」と呼ばれる単純な猿まね行動 (reciprocity behaviour) は、アクセルロッドがシミュレーションでモデル化した特定の環境のみならず、きわめて一般的な環境においても最適な戦略である、という主張だ。あるいはもっと大風呂敷になると、このしっぺ返しは人々の間の複雑な社会的やりとりにおける協力の基盤を作るものであり、生命すべてにおける社会的協力の発展を説明できるのだ、ということになる。

 アクセルロッドの業績に関するこの驚くべき評価の幅の中で、真相はどこに位置するのだろうか?

 ゲーム理論家であるわたしがどこに共感するかは、すぐに見当がつくだろう。『対立と協調の科学』のカバーで、アクセルロッドがゲーム理論で画期的な業績を挙げたと書かれているのを見るのは、確かにとてもいらだつものだ。その業績というのは通常は、一部の無限反復ゲームにおいては完全な協力が維持可能だという事実をかれが再発見した、ということを指す。でもこの事実は、アクセルロッドがこの問題について執筆を始める四半世紀以上も前からよく知られていることだった。五〇年代初期に、何人かの著者が同時に証明したゲーム理論の「フォーク定理」は、まさにこの事実を示すだけでなく、均衡として維持可能な反復ゲームのあらゆる結果を厳密に記述している。でもアクセルロッドはフォーク定理を発見はしなかったにしても、かれがゲーム理論に重要な貢献をしたのは確かだと思う。ただしそれは、しっぺ返し戦略そのものとも、無限反復囚人のジレンマにおける他のあらゆる均衡を維持するメカニズムとも関係ない。かれの貢献は、フォーク定理が存在を実証している無限の均衡可能性の中から、ある特定の均衡を選ぶのが重要だと言うことに目を向けてくれたことにある。他のゲーム理論家たちは、この貢献をした時点でゲーム理論についてまったく知らず、そして未だに自分の成果に対するゲーム理論的なコメントを意図的に無視し続けている人物を、このように認知するということ自体に抗議するかもしれない。だがアクセルロッドが先駆となった進化的な発想が、いまやゲーム理論の均衡選択問題における標準的なアプローチを提供しているということは否定しがたい。だが、アクセルロッドを進化的均衡選択の先駆者として認知することは、かれのしっぺ返し戦略についての主張を肯定するものではなく、またややこしいコンピュータシミュレーションに頼る前に理論で何が言えるか見ようとしないかれの態度を承認するものでもないということは、ここであらためてこだわっておく。

 拙著 Playing Fair は「しっぺ返し」バブルを詳しく論じている (Binmore 1994, p. 194)。まとめると、アクセルロッドは各種の社会科学者に声をかけて、無限反復囚人のジレンマでの総当たり戦の競技会に出場するため、コンピュータプログラムを提出するよう依頼したのだった。予備戦の結果を知らされた上で、出場者たちはゲームで可能な93の戦略のどれかを実装したコンピュータプログラムを提出した。たとえばしっぺ返しを提出したのは心理学者アナトール・ラポポートで、かれは一回限りの囚人のジレンマでは協力が合理的だと実証するものだと主張する「Symmetry Fallacy」の発明者だ。協力からの裏切りすべてに対し、その後ずっと非協力となることで罰する GRIM 戦略を提出したのは経済学者のジェームズ・フリードマンだった、等々。

 競技会では、しっぺ返しが一番成績の高い戦略だった。アクセルロッドはその後、ある世代で高い見返りを実現した戦略が、次の世代では数が増えるようにする更新ルールを使って、競技会に提出された 63 戦略に対して進化の影響が作用するようにした。進化シミュレーションの最後で、生き残ったプログラムの中でもっとも数が多かったのがしっぺ返しだったという事実でアクセルロッドは問題が片付いたと考え、きわめて広い状況における人間の協力についても、しっぺ返しが適切なパラダイムだと提案するに至った。しっぺ返しの美徳をアクセルロッドはこのように表現している (1984, p. 54) :

しっぺ返しの堅牢な成功の理由は、善良で、報復的で、相手を許し、明快であるということの組み合わせからきている。善良なので、無用なもめごとに巻き込まれずにすむ。報復性のおかげで、相手は裏切ったときに、それを続けようとは思いにくい。相手を許すから相互協力の再構築に役立つ。そして明快さは、意図が相手に読みやすいということなので、長期的な協力も引き出しやすい。

 こうした主張はどこまで正当化できるだろうか? よく調べると、しっぺ返しはアクセルロッドのシミュレーションで、それほど成功していなかったことがわかる。また、それがたまに成功するときでも、最初の個体数の分布を変えるとその結果はあまり堅牢ではない。いったん裏切った相手を許さない GRIM は、最初の個体群分布が、最大で 2 つの状態を持つ 26 の有限オートマトンすべてで構成されている場合にはきわめて強力だ。また、もし収奪する価値のある少数のカモが絶えず系の中に流入してくるような状況であれば、自分からは決して裏切らないような善良なマシンを進化が生み出すなどと期待してはいけない。そして明快さについていえば、協力が進化するためには、ミュータントが自分自身の複製を認識できさえすればすんでしまう。するとアクセルロッドの一覧で残るものといえば、成功する戦略は報復性がなくてはならないということだけだ。でもこの教訓が成り立つのは、一対一のやりとりだけだ。多者のやりとりでは、ずるいことをした参加者を罰するのは、被害を受けた参加者である必要はない。

 こうした反証を裏付ける前に、ナクバー (Nachbar, 1992) のもっと厳しい批判を取り上げておく必要がある。その批判とは、アクセルロッドがまちがって、有限反復型の囚人のジレンマ進化シミュレーションを走らせてしまった、というものだ。有限反復囚人のジレンマにおけるナッシュ均衡の利用は必然的に、双方のプレーヤーが必ず裏切る結果になるので、参加者の個体分布の中にあらゆる戦略が存在していたら何が生き残るかを知るのにコンピュータシミュレーションを走らせる必要などない。勝つ戦略は決して協力しない。

 ナクバーは、アクセルロッドが進化シミュレーションを走らせるときに、うっかり有限反復型囚人のジレンマで実行してしまったという点では正しい (Binmore 1994, p. 199)。この事実は、根底にある理論を知らずに実行されるコンピュータシミュレーションの潜在的な信頼性についての教訓を与えてくれるものだが、必ずしもアクセルロッドの結論を否定するものではない。というのも、実際に提出された 63 の参加プログラムは、どれ一つとして有限反復ゲームの末尾で起こる効果を利用するようにはプログラミングされていなかったからだ。実はリンスター (Linster, 1990, 1992) は、この有限反復型の囚人のジレンマを無限反復版で置き換えてやりなおしたが、出てきた結果はアクセルロッドのものとかなり近かった。だが一般に流布している見解とはうらはらに、その結果というのはしっぺ返し戦略だけが生き残るというものではない。最後にはいろいろな戦略の混合物が残る。その中で、いちばん多いのはしっぺ返しだが、でも個体数の 1/6 強しか占めていないのだ。すると生き残りの中でしっぺ返し戦略がいちばん多いというのはどこまで重要なんだろうか?

 理論を見ると、この問題に答える一助となる。リンスターのシミュレーションは、競技会に提出された63 種類の純粋戦略で構成される、63 x 63 マトリックスのナッシュ均衡にしか収斂できない。もしそれぞれの戦略の個体数が等しい状態から初期状態が開始していたら、アクセルロッドとリンスターの研究を見れば、この系は混合ナッシュ均衡に収斂して、その中でしっぺ返し戦略は、確率およそ 1/6 で実施されることとなる。でも、63x63 のゲームを、好き勝手な安定均衡の basin of attraction で始めることで、結果として出てくるナッシュ均衡も様々となる。アクセルロッドは六種類の初期条件を試して、そのうち 5 種類についてはしっぺ返し戦略がいちばん数が多かったと述べている。リンスター (1990, 1992) はすべての条件を系統的に試し、しっぺ返しが最終的な混合の中で最大の確率となる場合は、全体の1/4しかないことを発見した。

 でも、アクセルロッドの63戦略に限る必要もないだろう。リンスター (Linster, 1990, 1992) に習って、最大二つの状態を持つあらゆる有限オートマトンを初期値にしてはいかが? するとこの系は、広範な初期状態からはじまって、確率1/2以上でGRIM戦略が栄えるオートマトンの混合状態に収斂する。でも、GRIM は相手を許す戦略ではない。むしろその GRIM (陰々滅々) という名前は、あらゆる裏切りを永遠に容赦なく罰し続けるところからきているのだ。

 アクセルロッドがしっぺ返し戦略について述べる善良さの持つ進化的な意義を評価するには、突然変異と性的変異というノイズの多いプロセスをまねするシミュレーションに目を向けることが必要となる。革新的な論文 (Axelrod, 1987, 1997) で、アクセルロッドはホランドの遺伝的アルゴリズム (Holland, 1992a, 1992b) をこのために使っている(アクセルロッドは、こうした「進化的」シミュレーションと区別するため、初期の決定論的なシミュレーションを「生態的」と呼んでいる)。アクセルロッドの先駆研究は、50世代しかないシミュレーションを40種類やったにとどまるが、プロボスト (Probst, 1996) は後にこれを徹底して進め、大量のシミュレーションを長期にわたって走らせて、それをしばる複雑性の制約をつけなかった。『対立と協調の科学』に再録改訂された論文の最初のもの (Axelrod, 1987) で、アクセルロッドは意地悪なマシンが栄えている例は40 シミュレーション中の 11 件しかなかったという結果を出している。だがプロボストの結果を見ると、これがしっぺ返しのようなナイーブな猿まね戦略に最終的に取って代わられる前の一時的な増加だとして一蹴するアクセルロッドはまちがっていたことがわかる。それどころか、一時的にすぎないのは、しっぺ返しのようなナイーブな猿まね屋の初期の成功なのだった。長期的には、意地悪なマシンが勝つ。アクセルロッドによる、進化は無限反復囚人のジレンマにおいて、最終的には善良なマシンを生み出すはずだというアクセルロッドの主張 (Axelrod, 1984) は、実はまちがっていたことになる。ビンモア (Binmore, 1994, p. 202) は、プロボストがバーゼルで修士論文用に走らせた元のシミュレーションについて書いている。かれが博士論文用に行ったその後の研究は近刊である (Pollack and Probst 1998, Probst 1996)。

 二相有限オートマトンである TAT-FOR-TIT は、プロボストのシミュレーションから生じる意地悪な戦略としては、もっとも単純なものだ。この戦略は、まずは裏切り、相手も裏切るまでは裏切り続ける。相手が裏切ったら、この戦略は協力状態に切り替える。そして相手が裏切るまでは協力を続け、相手が裏切ったところでゲームはじめの裏切り状態に復帰する。つまり TAT-FOR-TIT を使うプレーヤーは、まず相手を収奪しようとし、自分と同じ形であいても自分を収奪しようと思っていることがわかったときに、初めて協力を開始する。

 TAT-FOR-TIT 戦略を初めて記述したのはラポポート&チャマー (Rapoport and Chammah, 1965) だった。それは囚人のジレンマに関する初期の本の中で、偏見の強い SIMPLETON (単細胞バカ) なる名称をつけられていた。プロボストと似たような結論は、生物学者のノワクとシグムンド (Nowak and Sigmund, 1990, 1992, 1993, Nowak, Sigmund and El-Sedy 1993, Sigmund 1993) も述べているが、そこで使われているシミュレーションはプロボストほど確定的ではない。かれらは TAT-FOR-TIT を PAVLOV と名付けている。勝ったときには同じ状態にとどまるが、負けたら状態を変えるからだ。わたしは、バンクスとスンダラムの論文 (Banks and Sundaram, 1990) が使った初期の用語にこだわりたい。この論文は理論的なツールを使って、進化分析に複雑性の考慮を導入したら、意地悪なマシンを含まないあらゆる均衡の混合は不安定になってしまうことを示した。なぜその用語にこだわるかというと、TAT-FOR-TITという名称は、オープニング段階におけるシグナリングの役割が重要であることを認識しているからだ。その段階では、意地悪なマシン同士は(いずれ協力するようになるが)相手が収奪可能かもしれないという可能性を探索する。この点については Abreu and Rubinstein (1988) が詳細に論じている。

 アクセルロッドの新刊『対立と協調の科学』 (1997, p. 21) は、いま挙げたようなゲーム理論家からの広範な批判を無視しつつ、無限反復囚人のジレンマにおける成功する戦略の本質的要素をすべて、しっぺ返し戦略が内包しているのだという当初の主張を繰り返し続ける。だが、進化がときには意地悪なマシンをひいきにするというアクセルロッド自身の発見はどうなった? アクセルロッドは、意地悪なな心が栄えたのは単に、それがカモを収奪できたからにすぎないと論じる。シミュレーションをもっと長く続けたら、当初は栄えた意地悪なマシンも、成功の鍵となるカモが排除されてしまうので、やがて脇に押しやられてしまうのだとかれは述べる。

 この議論の背後にある直感は、当初はそのしっぺ返し戦略といっしょにいるのが、常に協力か常に裏切るという戦略だけであるなら、確かに成立する。ただしそれは、そこに新しい戦略が入ってこないという条件がつく。常に協力するという戦略が当初は支配的なら、常に裏切るという戦略は、最初は大成功を収めるが、かれらが餌食にしている無条件の協力者たちがだんだん減るにつれて、常時裏切り者もどんどん減る。だがこの例から生じる直感は、無条件の裏切り者を TAT-FOR-TITに置き換えた場合には成立しないのだ。この系を、適切な basin of attraction から始めると、最終的な個体群はTAT-FOR-TITだけになる。系を二つの basins of attraction のもう一つから始めれば、確かに TAT-FOR-TIT はいなくなるが、それに注目させたところで、もう一つの basin of attraction がなくなるわけじゃない。この点を強調したいのは、『対立と協調の科学』再録の二本目の論文で、ウーとアクセルロッド (Wu and Axelrod, 1995, Axelrod 1997) が似たようなレトリック上のごまかしを使い、ノワクとシグムンドが PAVLOV について行った議論を一見すると反駁しているように見えるからだ。かれらはアクセルロッドの当初の「生態的」なシミュレーションに、TAT-FOR-TIT とその他三つの戦略を加えてみせる。この変更は、TAT-FOR-TIT を含む均衡混合の basin of attraction へと系をシフトさせるには不十分だったそうだが、それが何か?

 しっぺ返しバブルがしつこく続いているのは、ゲーム理論家にとっては謎だ。なぜ科学ライターはいまだにしっぺ返しを、人間の協力に関するパラダイムとして使い続けるのだろう? リドレー (Ridley, 1996) のような著者は、ここでサーベイしたようなアクセルロッドの研究に対する批判を知っている。理解できないのだろうか?

 ときには、しっぺ返し (TIT-FOR-TAT) は、それが通常の英語における「tit for tat」と同義だという誤解にもとづいてはびこっている。そして、この慣用句としての利用が、公平性という意味合いを持っているところからさらに混乱が生じている。たとえばあるジャーナリストが最近語ってくれたところでは、 TIT-FOR-TAT は科学的な事実なのだそうで、なぜかといえばアナグマはお互いの毛繕いについやす時間がきわめて平等だからなのだそうな。でも、それが TIT-FOR-TAT と何の関係が? 通常の英語でも、tat に続くはずの titというのは、犯罪に見合ったという意味なのですが。

 こう言ったからといって、tit と tatをマッチングさせるときに、公平性に訴える必要があることを否定するものではない。それどころか、近刊の拙著 Just Playing は、アダムが公平な取引でズルをしたときに、イブとしての自然な反応というのは、その取引を行う前に適切に成立していた原状を回復するために必要なことを何であれ行うことなのだ、と論じている (Binmore 1998)。そうなると、プレーヤーが被る損失は、その取引を実施することで受け取ると予想した利得と等しくなる。そうした利得は、そのときに存在する公平性の基準で計算されているので、イブによる罰則から生じる損失も、同じ基準で計算される。したがって、tit は tat により公平に決定されることになる。だがこうした公平性の見当は、アクセルロッドがしっぺ返し (TIT-FOR-TAT) に勝利の桂冠を与えた競技会 (Axelrod, 1984)のようなものにはまったく欠如している。

 他の通俗作者たちは、進化が必然的に人々を善良にするという発想にあまりに魅惑されすぎて、それを支持するものとして引用される科学的な証拠を検討する必要があるとはまったく思いもつかない。証拠不足をつきつけられると、かれらは立場をずらして馬脚をあらわしてしまう。つまりかれらのしっぺ返しに対する熱狂は単に、快適な中流家庭で育った体験に基づくものでしかない。でもかれらがしっぺ返しを用語するのに使う、中流階級の社会力学に関する各種の事例は、反復型囚人のジレンマとは何の関係もない。なぜなら反復型囚人のジレンマは、見知らぬ人同士の交渉をモデル化したものだからだ。中流階級のインサイダー集団の内部で機能する社会契約を理解するには、ブルジョワ家族の子弟はずっと昔から続くマルチプレーヤーのゲームに参加するのだ、ということを忘れてはいけない。

 通俗ライターたちが、あやまって「しっぺ返し」戦略に貼るようになったレッテルのもとになる直感をある程度とらえているらしい、もっとも単純なゲームは、オーバーラップ型世代モデルだ。これはあらゆる時点でプレーヤーが三人生き残っている。たまに一人のプレーヤーが死ぬが、すぐに新しいプレーヤーに置き換わる。それぞれの時点で、プレーヤーの二人がランダムに選ばれて、囚人のジレンマゲームを実施し、三人目はそれを見物する。遙か昔、どういうわけか、それぞれのプレーヤーが必ず協力しなくてはならないという均衡が確立した。それに違反するプレーヤーは、次に自分がマッチングされる相手が裏切りによって自分を罰することを知る――その相手がだれであろうと。昨日は、そのプレーヤーはアダム、イブ、イカボッドだった。でもイカボッドはその晩に死んで、かわりにオリーブが出てきた。オリーブはアダムとマッチングされて囚人のジレンマゲームをする。なぜアダムは彼女と協力することで善良にふるまうのか? アダムとオリーブだけから成るミニ社会の社会契約基盤となるような意地悪な均衡はたくさんあるのはわかっているのに。こうした意地悪な均衡の一部では、アダムとオリーブはこの新しい相手が収奪できるカモではないかと探りを入れることが可能になる。でもこうした均衡は、イブがいるために不可能だ。彼女は、意地悪な人物をすべて罰する用意ができているということにより、当初からみんなが善良なふるまいをするよう強制する。もっと一般化すると、子供たちが中流階級のインサイダー集団内で育つとき、かれらは他のインサイダーを、アウトサイダーには認められないような配慮を持って扱うよう学習する。それにしたがわないインサイダーたちは、その行動を変えないと、アウトサイダー扱いされることになる。しかしながら、しっぺ返し (TIT-FOR-TAT) とのアナロジーはせいぜいがここまでだ。自然は、中流階級のインサイダー集団の中で機能している甘さと明るさを、世界全体にもたらしていはいない。強姦や騒乱をもたらそうと暗い脇道にひそむアウトサイダーたちは、善良でもないし、他人を許すつもりもない。またサメはよどみにしかいないわけではない。まばゆい会議室にも居座り、権力の回廊をも徘徊している。こうした上層部のサメたちは、人々の銀行口座をくいものにして、高齢未亡人たちの年金を巻き上げるにあたり見事な歯をむきだしにする。でも、そいつらがわれわれと同じ善良な人だと偽装すべくこちらに向ける微笑をそのまま返したら、われわれはかれらの思い通りの馬鹿者でしかない。

 政治理論家たちは、世界から意地悪さを排除するような理論をでっちあげたときには、ひどいまちがいを犯している。意地悪さが非合理だというのはひたすらウソだし、進化がやがて意地悪をなくすというのもでたらめだ。ヒューム (Hume, 1985 [1758]) が警告したように、われわれの憲法はインサイダーのふりをした悪者や詐欺師が、社会契約のウラをかくために開発した現代的手法に対し、防御策をもたなくてはならないのだ。もっと緊急性が高いのは、相互に敵対する集団同士の紛争を減らすための方法を見つけることだ。セルビア人とクロアチア人たちは、いずれお互いをアウトサイダーとして扱うのをやめて、再び相互に善良になるよう説得されるだろうか? 北アイルランドや中東には希望があるだろうか?

 アクセルロッド (Axelrod, 1984) は、そうした協力の創発について、驚くべき例を一つあげている。第一次世界大戦では、英軍と独軍との間に、暗黙の野合が何件かたまに発生したことが報告されている。どちらの軍も、お互いを爆撃するのをやめたというのだ。アクセルロッド (Axelrod, 1984) はこのふるまいをtit-for-tat 的な理由づけのおかげだとしている。でもこの説明は、このプレーヤーたちが最初はお互いに対して善良にはふるまっていなかったという明白な事実を無視している。相手をアウトサイダーとして扱う集団の間に、そうした協力が生じる仕組みを理解するのはとても重要だということは、私も同意する。でも、結論があらかじめ決まっているモデルを使って協力の創発を分析しようとしても、意味はないのでは?

 以上のしっぺ返しパラダイムに対する批判は、近刊の拙著 Just Playing (Binmore 1998) 第三章からとったものだ。この章はまた、アクセルロッドがコンピュータシミュレーションだけで述べようとする事柄について、理論を使えば何がいえるかかなり詳しく述べている。ゲーム理論家にしてみれば、理論から得られる教訓をここまで頑迷に拒否するというのはほとんど犯罪的だ。ややこしいシミュレーションを走らせて、ゲームの均衡点をいくつか見つけたところで、それが直接簡単に計算できるようなものなら、何の意味があるだろうか? でもこれはシミュレーション技術を使う社会科学者がしばしば犯すまちがいだ。シミュレーション実施者たちは、自分たちがゲームを検討しているということにすら気がついていない場合が多いし、そのシミュレーション結果がどう転んでもそのゲームの均衡点に収斂する(収斂点があればだが)しかないこともわかっていなかったりする。ときにはゲーム理論家は、そのシミュレーションが根底にあるゲームの均衡点とはちがうところに収斂しているのを見て、そのシミュレーションが絶対にまちがっているのをすぐに見抜くこともある。でもそれを指摘したところで、結果を見直そうとするシミュレーション実施者にはお目にかかったことがない。

 これ以上囚人のジレンマの話をするよりも、『対立と協調の科学』からの三本目の論文「規範の推奨 ("Promoting Norms")」をちょっと見ることで、理論の価値についての私の論点をさらに突き詰めたいと思う。反復型囚人のジレンマのシミュレーションと同様、アクセルロッド (Axelrod, 1986) は規範ゲームと称するもののシミュレーションを元に、ご大層な結論を引き出そうとする。アクセルロッドにはあずかり知らぬことながら、これに関連したゲームはたまたま、経済学や心理学の文献ではすでに悪名高いものとなっているのだ。その関連したゲームとは、「最後通牒ゲーム」と呼ばれている。慈善家がアダムとイブに対して、二人でお互いの取り分に合意できたら100ドルあげよう、とアダムとイブに提案する。交渉ルールとしては、アダムがイブに提案を行い、それをイブは受け入れてもいいし、断ってもいい。断ったら、どちらも一銭ももらえない。合理的期待に基づく議論からくる予想では アダムは自分の交渉力を乱用し、100 ドルのほぼ全額を自分の懐に入れるということになる。イブが金だけを考えるなら、少しでももらえるほうがゼロよりはましだろう、というのがアダムの発想となる。だから、イブが一セントしかもらえないような提案でも、ことわって何ももらえないよりはましだと考えるはずだから、アダムはそれを提案する。でも実験してみると、アダムはイブに対して、総額の三分の一以下を提示するのは愚かだということがわかる。彼女がノーという確率は、そのあたりでちょうど半分になるのだ。実はプレーヤーが通常合意するのは、アダムに総額の半分よりちょっと多い金額を与える程度の分割となる (Güth et al. 1982)。

 お金をどう分けてもそれは均衡として支持できるので、アダムとイブが最後通牒ゲームで直面する問題は、均衡選択問題だと考えることができる。かれらの社会でこの問題の解決につかわれる尺度は、つまり社会規範として考えることができる。ここでいきなりコンピュータシミュレーションに向かうよりも、理論を使って、そうした規範を考案するために進化が直面する問題を検討することができる。ビンモア、ゲール、サミュエルソン (Binmore, Gale and Samuelson, 1995) はまず、最後通牒ゲームを単純化したものの検討から始めたが、これはアクセルロッドの規範ゲームの単純版でもある。利得の具体的な数値はどうでもいいのだが、この慈善家には4ドル出す用意があるとしよう。そしてアダムは、それぞれ二ドルの山分けを提案することもできるし、自分が三ドルでイブは一ドルだけという分け方を提案してもいいことにする。さらにイブは、均等な山分け提案は必ず受け入れるものとしよう。そうすれば、不均等な分け方の場合にのみ専念できる。こういう状況では一番簡単な進化プロセスをモデル化するために生物学者が使っている、replicator dynamics の convergence properties を分析するのが一番ストレートなやり方だ。反復型囚人のジレンマの場合と同様、系が収斂する均衡点は、それが出発する basin of attraction に左右される。時にはその系は、合理的期待の均衡に収斂するし、ときにはそうならない。だがここで注目すべき重要な点は、この収斂プロセスがまったく堅牢でないということだ。これは動的プロセスの実に小さな乱れによって、攪乱されたりすさまじく遅くなってしまったりする。ここからいえるのは、コンピュータシミュレーションでの試行数回から得られた結論には、ほとんど依存できないということだ。どんな結果であれ、まともに受け取るためには、根底にあるパラメータをいろいろ変えて、ものすごい数の堅牢性試験を行う必要がある。完全な最後通牒ゲームにおける進化を検討するにあたっては、50 万回のシミュレーションが必要だった (Binmore et al. 1995)。その過程で、小数点以下10桁の制度では不十分で、小数点以下15桁まで使わざるを得なかったのだった。

 まとめよう。アクセルロッドが、規範の進化に関する結論の根拠としたと称するシミュレーションのデータは、嘆かわしいほどに不十分なものだ。そして、それはかれの規範ゲームなるものが、本当の規範が生じるライフゲームの適切な表象だと考えた場合でもいえる。根底にある理論をきちんとおさえないと、シミュレーションだけではどう考えてもすまない。理論を知らないと、シミュレーションの信頼性も評価のしようがないし、したがってそれが示す結論をどのくらい信用していいかもまるでわからない。『対立と協調の科学』でアクセルロッドが提示する、規範その他についての結論が無価値だ、ということではない。なんといってもかれは賢い人物で、自分の書いていることについての文献は熟知しているのだから。でも、かれが自分の発想を指示するために提示するコンピュータシミュレーションからの証拠が、単にレトリック上の価値しかないという結論は逃れようがないと思う。かれの手法は、探求に値するいくつかの新たな憶測を俎上にあげてくれるかもしれない。だがこうした憶測を評価するには、根底にある理論をきちんとわかったうえで設計された、適切にコントロールされた堅牢性試験を科学的に実施する以外に方法はないのである。

Ken BinmorePlaying Fair: Game Theory and the Social Contract I, MIT Press (1994) の著者です。続巻 Just Playing も近刊。


参考文献

ABREU D. and A. Rubinstein. 1988. The structure of Nash equilibrium in repeated games with finite automata. Econometrica, 56:1259-1282.

AXELROD R. 1984. The Evolution of Cooperation. Basic Books, New York. 邦訳アクセルロッド『つきあい方の科学』(ミネルヴァ、1998)

AXELROD R. 1986. An evolutionary approach to norms. American Political Science Review, 80: 1095-1111.

AXELROD R. 1987. The evolution of strategies in the iterated Prisoners' Dilemma. In L. Davis, editor, Genetic Algorithms and Simulated Annealing. Morgan Kaufmann, Los Altos, CA.

AXELROD R. 1997. The Complexity of Cooperation. Princeton University Press, Princeton, NJ. 邦訳アクセルロッド『対立と協調の科学』(ダイヤモンド社, 2003)

BANKS J. and R. Sundaram. 1990. Repeated games finite automata and complexity. Games and Economic Behavior, 2:97-117.

BINMORE K. 1994. Playing Fair: Game Theory and the Social Contract I. MIT Press, Cambridge, MA.

BINMORE K. 1998. Just Playing: Game Theory and the Social Contract II. MIT Press, Cambridge, MA.

BINMORE K., J. Gale and L. Samuelson. 1995. Learning to be imperfect: The Ultimatum Game. Games and Economic Behavior, 8:56-90.

GüTH W., R. Schmittberger and B. Schwarze. 1982. An experimental analysis of ultimatum bargaining. Journal of Economic Behavior and Organization, 3:367-388.

HOLLAND J. 1992. Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor, MI. (Second edition, first published 1975).

HOLLAND J. 1992. Genetic algorithms. Scientific American, 267:66-72.

HUME D. 1985. Of the first principles of government. In Essays Moral, Political and Literary, Part I. Liberty Classics, Indianapolis, IN. (Edited by E. Miller. Essay first published 1758).

LINSTER B. 1990. Essays on Co-operation and Competition. PhD thesis, University of Michigan.

LINSTER B. 1992. Evolutionary stability in the repeated Prisoners' Dilemma played by two-state Moore machines. Southern Economic Journal, 58:880-903.

MARTINEZ-COLL J. and J. Hirshleifer. 1991. The limits of reciprocity. Rationality and Society, 3:35-64.

NACHBAR J. 1992. Evolution in the finitely repeated Prisoners' Dilemma. Journal of Economic Behavior and Organization, 19:307-326.

NOWAK M. and K. Sigmund. 1990. The evolution of stochastic strategies in the Prisoners' Dilemma. Acta Applicandae Mathematicae, 20:247-265.

NOWAK M. and K. Sigmund. 1992. Tit for tat in heterogeneous populations. Nature, 355:250-253.

NOWAK M. and K. Sigmund. 1993. A strategy of win-shift, lose-stay that outperforms tit-for-tat in the Prisoners' Dilemma game. Nature, 364:56-57.

NOWAK M., K. Sigmund and E. El-Sedy. 1993. Automata, repeated games and noise. Technical report, Department of Zoology, Oxford University.

POLLACK G. and D. Probst. 1998. Evolution, automata and the repeated Prisoners' Dilemma. (Forthcoming in Rationality and Society).

PROBST D. 1996. On Evolution and Learning in Games. PhD thesis, University of Bonn.

RAPOPORT A. and A. Chammah. 1965. Prisoner's Dilemma. University of Michigan Press, Ann Arbor, MI.

RIDLEY M. 1996. Origins of Virtue. Penguin, Harmondsworth. 邦訳リドレー『徳の起源』(翔泳社, 2000)

SIGMUND K. 1993. Games of Life: Explorations in Ecology, Evolution and Behaviour. Penguin, Harmondsworth.

WATSON L. 1995. Dark Nature: A Natural History of Evil. Hodder and Stoughton, London.

WU J. and R. Axelrod. 1995. How to cope with noise in the iterated Prisoner's Dilemma. Journal of Conflict Resolution, 39:183-189.


(c) Copyright Journal of Artificial Societies and Social Simulation, 1998

YAMAGATA Hirooトップに戻る


YAMAGATA Hiroo <hiyori13@alum.mit.edu>
Valid XHTML + RDFaCreative Commons License
最近の噂 by hiroo yamagata is licensed under a Creative Commons 表示-継承 2.1 日本 License.