共通知識と信頼

copyright: Kenryo INDO (kindo~at~kanto-gakuen.ac.jp)

majour updates:
24 Nov, 1996
(ck.html. The first edition.)
revised: 7,21,29 Feb; 6,9 Apr 2003
(ck03b.html. Expanded with Prolog modelings.)
revised: 4 Feb 2004
(ck03c.html. Short comment on the word "convention".)
revised: 10 Nov 2005
(ck05.html. postscript about the "trust".)

もくじ

  1. 情報と知識の数理モデル
  2. 相互知識と共通知識
  3. グループの知識と共通知識のちがい:帽子パズルによる例示
  4. 合意定理と投機定理
  5. 投機定理: 取引不可能性の結果
  6. 投機の可能性:エラーのある情報処理
  7. 共通知識研究の背景:認識論理学など
  8. バックワードインダクションと均衡洗練
  9. 情報構造モデルと会話:認知科学的な関心

情報と知識の数理モデル

 ゲーム理論における「ゲームプレイヤーの知識モデル」,とくにお互いに 合理的に選択することを知っているエージェントたちの「共通知識」 (common knowledge) についての明示的な扱いは, Aumann(1976)以降に研究されるようになった.Aumannは確率論モデルを適用し, 状態集合のパーティションから,各エージェントの知識,相互知識, 共通知識を事象として形式化した.

 以下に述べるようにこの方法では,まず状態空間とそこでの個人の情報 構造を適当な確率論的モデル(パーティション,σ代数,可能性対応など) にもとづいて定義し,次に任意の状態における個人の知識や確率的信念, またそこから2者以上のグループの知識を定義する.共通知識は,グルー プ知識の極限として定義される.

 各個人iのパーティション情報構造は,状態が有限個の場合に全事象Ω のパーティションの集合から成り立つ.(また連続的なシグナルを解釈す るときは,パーティションのアナローグとしてσ代数を用いる (Nielsen, 1984).)

 同じエージェントの同じパーティ ション内の状態では,すべて同じパーティションが選ばれ,その逆も成り 立つ.


s∈Ω−Pi(ω)→Pi(ω)∩Pi(s)=φ,∪Pi(ω) =Ω.


 意味的には,任意の状態ωが実現すると,かならずそれを含む唯一のパ ーティション(=情報集合)Pi(ω)∋ωが選ばれる.またエージェン トの状態ωにおける知識は,現在のパーティションPi(ω)を含む任意 の事象である.


 Pi(ω)⊆E ←→ Ki(E;ω).


 認知モデルとしてのパーティション情報構造モデルは,ある程度の 精度までは見極められても,それ以上の細かいことはぼやけて区別で きないという視覚のアナロジーに基づく(Aumann, 1976; Geanakoplos,1990). 確率論の用語を使えば,各状態はパーティションの集合に関して可測 (measurable)である.2つの状態sとtは,P(s)=P(t), つまりそれが同じパーティションに属しているかぎり,お互いに区別できない.  また真の状態を必ず含むという意味でパーティション構造はノイズのな い(あるいは誤伝のない)情報構造である.

 たとえばエージェント1の情報構造P1を以下のように図示できる.

 状態ω P1(ω)
----------------------
 ω=1 P11=○
 ω=2 P12=●
 ω=3 P13=●
 ω=4 P14=◎
 ω=5 P15=◎
 ω=6 P16=□
----------------------
図1.パーティション情報構造P1

このエージェントの情報構造は,次のように4種類の情報集合 (information set) によってパーティションされている.


P1(ω)={P11=○,P12=●,P13=◎,P14=□}.


パーティション情報構造モデルの認識論的仮定はつぎのようである.

(情報粒度の比較)2つの情報構造を比較して,どちらがより キメが細かい(finer)か,あるいはキメが粗い(coarser)かを情報構造の半順 序関係にもとづいて語ることができる.

 たとえば次の情報構造P1’は上のP1よりも粗い.あるいはP1の方が P1’よりも細かい.しかしP1とP1”の間のキメの細かさは比較できない.

  ω     1 2 3 4 5 6
 P1’(ω) △ △ △ ▲ ▲ △
 P1”(ω) △ △ ▲ ▲ ▲ ■
図2.2つのパーティション情報構造

   

相互知識と共通知識

 各個人は自分の情報集合のどれが選ばれているかを知っているが, 本当のω∈Ωがどれかは知らない.また他者の知っていることについては, もちろん直接知ることはできない.ただし各人のもつ情報構造そのもの はお互いによく分かっているものとする.

(ところでやや技術的な問題になるが, 情報構造が共通知識であるというメタレベル命題,あるいは不完備情報 ゲームの分析,つまりゲームについての知識に欠けたプレイヤーたちの モデリングのためにHarsanyiが導入した「タイプ」が,どうベイズ的方法 で確率論に矛盾せず構成できるかという話題がある (Brandenburger and Dekel, 1993). ここではとりあえず解決可能ということだけ述べ るにとどめて話を先に進めよう.)

 こうした状況設定では,情報構造を用いた推理によって各エージェントは 他者の知っていることについてある程度のことが分かる.

 ω : 1 2 3 4 5  ←状態:情報集合を選択する
 P1: ○ ● ● ◎ ◎  ←エージェント1の情報構造
 P2: □ □ ■ ■ ◇  ←エージェント2の情報構造
図3.パーティション情報構造の別例

 たとえば上のように類別されたパーティション(=情報集合)をもった 2エージェントがいて, 本当の状態がω=1であるとする.するとP1(ω)=○だから,エージ ェント1はω=1であることを正しく知っている.一方,P2=□だから エージェント2はω=1とω=2の2つの可能性があると思っている.そし てエージェント1は,ω=1の下ではエージェント2がω=1かω=2かを 決定できないことを知っている.

 しかし上で述べたω=1の下でのエージェント1の情報的優位は両者の 間の共通知識にはなりえないことに注意しよう.じっさいエージェント2は, 本当の状態がω=1であり,したがってエージェント1がこのことを正確に知っ ているか,あるいはω=2が本当であり,したがってエージェント1のパーティ ションがP1=●であり,それゆえω=2かω=3かを決めかねているのか, いずれが真実であるかを知らない.

 相互知識の可能性について,上で述べたような推理は,各人のパーティション 情報構造において,各人の現在の情報集合と,それとの交わりが空でない他者 の情報集合(本当ωを含むパーティションとは限らない)との「合併」(meet) を作る操作

P1(+)P2(ω)=P1(ω)∪P2(ω)

に相当する.

 共通知識を計算するための具体的手続きは,例えば個人の情報構 造がパーティションから成り立つ場合,その合併(meet)をとる手続き,あ るいはその事象自身にこの手続きを加えたときの不動点(fixed point)と して,共通知識となる事象が計算される.

 2つのパーティションの合併は,ある状態とそれを含 むパーティションから出発し,共有する状態のある他のパーティションに移り, パーティションを合併する.またそこに含まれる状態を経由して,別の状態に 移ると共に経由したパーティションを合併する.  この操作の繰り返しによって,両者の相互知識 (mutual knowledge)は,かならず両者のパーティションの共通の境 界部分にまで広がっていき,共通知識は最終的に全員のパーティションの 境界が一致するところで達成される.

  ω: 1 2 3 4 5 ‖ 6
 P1: ○ ●−● ◎−◎ ‖ ☆
     | | | | | ‖ |
 P2: □−□ ■−■ ◇ ‖ ★
図4.両者の情報構造の合併

 すべてのω∈Ωについて情報集合の合併操作を繰り返し行うことにより, 各状態での2人のエージェントの共通知識をあらわす新しい情報構造P1<+>P2が Ωのパーティションとして作られる.

(Aumannの命題)
 A⊆Ωがω∈Ωにおいて共通知識である.<==> P1<+>P2(ω)⊆A.
 前述の図4の情報構造では,結局,可能性のあるすべての知識の状態に ついて互いに正しく推論すると, エージェント1は本当の状態がω=1だと知っているにもかかわらず,2人 の共通知識は,Ω={1,2,3,4,5},すなわちまったくの無知 (total ignorance) を帰結する.しかし,ちなみにもしω=6がΩに追加され,両者 ともこれを別のパーティション(たとえば△)において気付くとすれば, 上のω=1には「少なくともω=6ではない」という点で両者は合意で きる.

 また2人からN≧3人に拡張したときの(状態ω∈Ωにおける)共通知識は, やはりN人の情報構造において,パーティション間の合併をとる 手続きの極限ω∈P(ω)=∪ Pi(ω)として定義できる.

 あるいは各自の知識オペレーターKj

Kj(E)={ω|Pj(ω)⊆E}

の 不動点(つまり自証的事象)として,次のように共通知識を定義でき, これら2つの方法による共通知識の定義は一致する(Shin, 1993, p.11; Fagin et al., 1995, see section 11.5).

 C:A⊆Ωが(ω∈Ωにおいて)共通知識であること.
<==> (ω∈)C⊆Kj(C∩A). ∀j

 すなわち,ある事象Aが(ω∈Ωにおいて)共通知識であるという事象Cは, その事象Cに属するすべての状態において,事象Aが(ω∈Ωにおいて) 共通知識となる事象である.

 ところでDavid Lewis(1969)は社会Pにおける共通知識(Cとする)を 次のように定義している(Lewis, 1969, p.56).

(1)社会PにおいてだれもがAということが成立していることを知っている.
(2)Aということが,社会Pにおける全員に対して,P内のだれもがAということが成立していると信じる理由があることをIndicateする.
(3)Aということが,社会Pにおける誰に対してもCということをIndicateする.

 いいかえれば,状況において参加者全員に対して ある事態を宣言する言明は,その言葉の意味だけでなく,それを 共通に知られる事実として成立させるはたらきを含んでおり,それゆえ その意味とは,状況そのものであり,上記のような(自己言及の) 不動点としての特徴を持つ.

 上の定義は状況(situation)と呼べるものが持つ自己言及的な性格を特徴付 けており,またそれゆえに自証的な事象の性質である相互知識オペレータの 不動点になっている.Aumannはパーティションのミートによる共通知識モデル に先立って,Lewisの研究を参照している.


グループの知識と共通知識のちがい:帽子パズルによる例示

 共通知識とグループの(相互)知識はちがうものだということを例示するため に,この分野の有名なパズルとして3人の子供の帽子問題がある.この問題は Geanakoplos(1990)やFaginら(1995)に紹介されているが,他の文献にも一種の 数学パズルとして しばしば登場する.(たとえば『落とし度暗号の謎解き』という薄い読み物には, 3人の汚れた顔の貴婦人問題として紹介されている.)

 パズルの筋書きは次のようだ.3人の子供がお互いに自分のかぶった帽子の色 を見合っている.ほかの2人の帽子の色は見えているが,自分の帽子の色はわか らない.もちろんお互いに教えあったり,帽子を取って色を確かめるとか,鏡に 映して見るといったことはできないルールになっているとする. 帽子の色は赤か白のいずれかである.大人が一人 いて,「君たちの中に最低一人は赤い帽子をかぶったものがいる.」と正直に 教える.そして実は,3人とも赤の帽子だったとしよう.3人の子供は順番に 自分の色が分かったかどうかこの大人から質問され,必ず正直に「はい(=わ かった)」または「いいえ(=わからない)」で答えるものとする.このうち の誰かが,あてずっぽうで なく,自分の帽子の色を正しく推理できるだろうか? もし,できるとしたら, 誰がいつ「わかった」と答えるだろうか?

 パズルの答えは3人目の子供が,自分の色(よって全員の)帽子の色がわかる というものだ.すなわち予測される質問と答えの列は,子供1:「いいえ」, 子供2:「いいえ」,子供3:「はい」 である.しかし,もし大人が「最低一人は赤」と告げなかったならば,永久に 「いいえ」の列が続くだけである.(すなわちパーティションのミートが全域 に達する.)

 ところで,「最低一人は赤」すなわち 「白白白」という状態は不可能だということは,いずれの子供も事実として すでに見知っていることから直接分かる.すなわち大人がこれをアナウンスに より告げるまでは,3人の間の共通知識として成立していなかったということ に注意する. 3人がいずれも同じことを知っているので,これはグループの知識であるが, しかし(上で述べた厳密な意味においては)共通知識ではなかったのである.

 実際,子供3にとって可能な状態は,「赤赤赤」(真の状態)か「赤赤白」の 2つだが,もし真の状態が後者なら,子供2は「赤*白」を見ており,それゆえ 「赤赤白」あるいは「赤白白」の2つのういちいずれかが可能と考えるだろう. また,もし子供2が 次のように考えて,つまり,もし「赤白白」が真だとしたら,子供1は「*白白」 を見ており,ゆえに「白白白」も可能だと考えるはずである,と考えるだろう. そのように,子供3は考えることができるわけである.またこの議論は3人の名 前をとりかえても成り立つ.だから誰も,大人の公表を聞くまでは,「白白白」 の不可能性は共通知識になりえなかったのである.

 また上の議論を逆にたどることによって, (つまり後で述べるように,バックワードインダクションと呼ばれる論法を 用いて)前の子供による無知表明が,いかに子供3の 推論において,不可能な状態を消去し,先述の結論に至るかを理解することは, もはや容易な練習問題であろう.

 子供3の推論を再現すると次のようになる.ただし以下を読む前に,まず 自分自身で考えられることをお勧めする. 「赤赤白」が真の状態であると仮定すると,子供2はこれを推理できる はずだろう.なぜならば,このとき子供2は「赤*白」を見ており,もし 「赤白白」が真の状態だとしたら,子供1は「白白白」はありえないと告げ られているから,即座に自分の色が分かり,最初の質問に対して「はい」と 答えるはずである.しかし,子供1はそうは答えなかったので, それを聞いた後,子供2は,それゆえ「赤赤白」が真の状態だと正しく知る ことができる.しかし子供2はそう答えなかったので,大人のアナウンスと 前の2人の子供たちの無知表明を順次聞いた後,子供3は自分の色を知る.

Prologによるシミュレーション(1):帽子パズル

 この相互知識推論は,パーティション情報構造を用いれば,上で述べた形式的操 作によって,再現できる.筆者のホームページに掲載したPrologプログラム ck01.plはこのアプローチを忠実にシミュレーションし,実際に帽子パズル例題の 相互知識推論の系列を再現する.以下にそのシミュレーション結果の一部を 示す.

 システムの読み込み.

?- [ck01].
% --------------------------------------------------------- %
% common knowledge : 3 children puzzle.
% --------------------------------------------------------- %
 said/4 to simulate the message procces.
 for example, ?- said(I,T, [r,r,r], Y).
 make_public/0 to assert the impossibility of www.
% ck01 compiled 0.01 sec, 0 bytes

Yes
 白白白の不可能性を公にする前のやりとりでは全員が「分からない」(dk)を 答え続ける.また,これは真の状態が何であっても変わらない.

?- said(I,T,[r,r,r],Y).

I = 1
T = 1
Y = dk ;

I = 2
T = 2
Y = dk ;

I = 3
T = 3
Y = dk ;

I = 1
T = 4
Y = dk ;

I = 2
T = 5
Y = dk ;

I = 3
T = 6
Y = dk 

Yes
 白白白の不可能性を公にした後は,ある1人の子供が有限ステップ内に 真の状態を推論するが,他の子供は依然としてdkを答え続ける.

?- make_public.

Yes
?- said(I,T,[r,r,r],Y).

I = 1
T = 1
Y = dk ;

I = 2
T = 2
Y = dk ;

I = 3
T = 3
Y = know ;

I = 1
T = 4
Y = dk ;

I = 2
T = 5
Y = dk ;

I = 3
T = 6
Y = know 

Yes

 以下に示すように真の状態が, 赤赤赤と赤白赤と白赤赤と白白赤のときは子供3が,赤赤白と白赤白のと きは子供2が,赤白白で子供1が,それぞれ最初の自分の応答で「分かっ た」(know)と答える.以降の手番ではそれが繰り返される.

?- state(S),member(B,[1,2,3,4]),said(A,B,S,know).

S = [r, r, r]
B = 3
A = 3 ;

S = [r, r, w]
B = 2
A = 2 ;

S = [r, w, r]
B = 3
A = 3 ;

S = [w, r, r]
B = 3
A = 3 ;

S = [r, w, w]
B = 1
A = 1 ;

S = [r, w, w]
B = 4
A = 1 ;

S = [w, r, w]
B = 2
A = 2 ;

S = [w, w, r]
B = 3
A = 3 ;

No

合意定理と投機定理

 帽子パズルの例題には,私たちの日常的な甘い知識共有 の感覚が共通知識の厳密な定義とかけ離れている場合があることを示だけでなく, 共通知識をグループ内で達成するためのコミュニケーションプロセスに光を当てた という別の重要な意味があった.

 共通知識がどのようにグループ内で達成されるのかということを考えるために は,帽子パズル例題でも論じられたコミュニケーションのプロセスないし 会話のプロトコールを明示的に扱う必要がある.(ただし, 帽子パズルにおいては,目の前で皆が同時に見ている,あるいは聞いていると いう事実については,共通知識として成立することは自明であると思われるので, そう暗に仮定されている.)

 またその場合に,依然として パーティションとその更新操作と,その繰り返しにおける不動点としての 共通知識の定義は有効である.(※1)パーティションの更新操作は,具体的には, 観察されたシグナルの下で,シグナル送信の共通モデルあるいはそのシミュレ ーション結果と矛盾する不可能な状態を消去することである.(※2)

※1 ただし,何が合意されるべきか(=何が不動点となるのか)は,問題 ごとに異なるので注意が必要である.帽子パズルでは各自自分の帽子 の色(真の状態に含まれる)についての知識状態(の報告)の組 が合意の対象である.これは各自の帽子の色の組を状態とするパーティショ ンそのものではないが,シミュレーション結果を見て分かるように, 以前のパーティションとその報告列に基づき,各自の可能と考える パーティションが更新され,また 同時に各時点でのミートによって共通知識が更新される.

※2 上のPrologプログラムは,ベイズ的合理性を備えたエージェントによる 他者の知識についての推論を実験的に再現したものである.したがって 各時点で他者が可能と考えるパーティションは,このシミュレーション と同じように,各自によって推論できると仮定できる. 各時点での各自のパーティションは,自分が可能と考える各状態を それぞれ真であると仮定したときに,それと矛盾しない自分の応答列と 可能な他のエージェントの応答列を生成でき,またその逆も成りたつ.

 共通知識研究の古典的成果は,合意定理(Aumann,1976)と投機定理(Sebenius and Geanakoplos, 1983)ないし 取り引きなしの結果(Milgrom and Stokey,1982)の2つである.以降の研究は 情報構造を一般化したり,N人のケースでの合意達成のための状況の制約 を変えるなどして,これらの結果を一般化したり,その論理的構造を明確 化する方向で進められた.


合意定理
 ベイズルールにしたがって期待を更新する2エージェントは, 不一致に合意することは不可能である.


投機定理
 事前最適を仮定する. ベイズルールにしたがって期待を更新する2エージ ェントは,リスク愛好的でない限り,合理的期待均衡の下で,投機的取り 引きを行うことは不可能である.


 共通知識は各エージェントの情報集合の合併として定義された.それゆえ 共通知識においては個人間の情報非対称性は消されていなければならない. Aumann(1976)の合意定理(合理的エージェントが互いの意見の不一致に合 意することは不可能であるということ)は,この形式化の下での当然の帰 結をあらためて証明したものである.また,どちらかがだまされていない 限り,投機的取引というものは成り立たない.Milgromらの定理は合理的な トレーダーたちはお互いに出し抜けないことを示すものだ.(ただし本来, 彼らの定理は任意のパレート改善する取引について不可能性を示すものだ から,投機といっても,ここでは「出し抜く」ことばかりではないものと しておこう.)

 ここで,この分野になじみのない読者のために,次のような注意が親切 かもしれない.まず,確認したいのは,現実に取引が成立するには 合意は不可欠だということ.合意のない取引は無効である.つまり商取引 慣行や法律の観点からして,取引に合意したことが当事者間で共通知識に なる必要がある.法学的な知識ではなく,一般常識として,述べてている. もちろん,現実の商行為 においては,それによって結局いずれの側が得をするか,損をするかにつ いての予測や,どの ように意思決定したか,あるいはどのような情報を入手して決定に用いた かといったことが共通知識である必要はない.一方,ベイズルールと期待効用最 大化を仮定した取引モデルでは,非常に抽象化されているが,日常のセン スでの合意に至るプロセスにはない,意思決定に用いられる推論方式や利用 できる情報についての共通性と非対称性が,予め仮定されている.

 ところで,Aumannの共通知識モデルでは,次の2つの基本的仮定が置かれた.

 最初の条件の前半は,文献でCommon Priorの仮定と呼ばれることがあるが, Aumannはハーサニの狭義(Harsanyi's doctorine)と呼んだ.また後半は 条件付き確率や条件付期待の法則と矛盾しない.あるいはほぼそれと同じこ とだと考えてよい.すなわち,Aumann(1976)の合意定理ではベイズルール, MilgromとStokey(1981)の無取引定理(投機定理)では条件付き期待 効用の計算(厳密には代替案ペアの期待効用の比較)にしたがうこと をそれぞれ意味する.なお確実性条件はSavageの確実性原理を もじった名前だが,文献ではUnion Consistencyと呼ばれる場合もある.

 なお,非パーティションに一般化された情報構造の下で,合意定理は保存 されるが,投機定理は緩和される.この両者のちがいがいかに発生す るのかは,後で述べる.


投機定理: 取引不可能性の結果(Milgrom and Stokey, 1982)


 ω= 1 2 3 4 5
 P1= ○ ● ● ◎ ◎  ←エージェント1の情報構造
 P2= □ □ ■ ■ ◇  ←エージェント2の情報構造
図5.両者のパーティション情報構造

上のように表わされた2エージェントの情報構造の下で,エージェントが投機的 取り引きにかんする意思決定を行う状況を考えよう.

いま,別の状態θがあって,1または2のいずれかだとし,また このΘ={1,2}に依存した,つぎのような取り引きを提案する.

取り引き(L):

 θ=1のとき.エージェント1がエージェント2に1万円払う.(2の勝ち)

 θ=2のとき.エージェント2がエージェント1に1万円払う.(1の勝ち)

ωとθの同時確率(およびエージェント1の勝率)が,下表のようであることが 分かっているものとして,この取り引きは成立するだろうか?


表1.投機的取引の例題の情報構造と勝率
注:この例は,Milgrom and Stokey(1982)によります.

---------------------------------------------------------
状態\確率  θ=1   θ=2   p(θ=2|ω)
---------------------------------------------------------
 ω=1    .20     .05       1/5
 ω=2    .05     .15        3/4
 ω=3    .05     .05      1/2
 ω=4    .15     .05      1/4
 ω=5    .05     .20      4/5
---------------------------------------------------------

 いま,ω=3が本当の状態で,両者がリスク中立的(つまり勝率が半分を超 えるのなら賭けてみようとする)エージェントだとしよう.

 表1のp(θ=2|ω)は各状態ωにおけるエージェント1の勝利確率である. また表2の確率からp(ω)はそれぞれ, 1/4,1/5,1/10,1/5,1/4 である.したがってシグナルを観察しない状態では, エージェントの勝率はともに1/2(つまり事前最適)である.

ナイーブなトレーダーの場合

 各自,自分が知っている情報のみに基づいて,取引するかしないかを決める.
 
エージェント1
ω=3のときの自分の情報パーティション(●)の下で,この取り引きから 得られる(条件つき)期待金額は,

p(θ=2|●)=(.15+.05)/(.05+.15+.05+.05)=2/3

であるから,0.5より上.よって取り引きに応じる.

 

エージェント2
ω=3のときの自分の情報パーティション(■)の下で,この取り引きから 得られる(条件つき)期待金額は,

p(θ=1|■)=(.05+.15)/(.05+.15+.05+.05)=2/3

であるから,0.5より上.よって取り引きに応じる.

少しだけ相手の心理を読むトレーダーの場合

エージェント1の読み.
自分が得だと思っても,相手が応じなければ取り引きは成立しない. この問題の場合,ω=2とω=3の両方がありうるが, もしω=2だったとしたら,エージェント2は,□であること,つま りωは1か2のいずれかだと知っていて,それゆえ自分の勝率を, p(θ=1|□)=25/25+20=5/9>1/2と計算するだろう.ゆえに, エージェント2はこの取り引きに応じる.また,もし真実がω=3だ としたら,相手は勝率を p(θ=1|■)=2/3>1/2と計算して,この取り引きに応じるだろう. というわけだから,私はこの取り引きに応じることにしよう.

合理的に期待するトレーダー

エージェント1の推論.
 私は●,つまり本当の状態がω=2あるいはω=3で,それ以外の状態で はありえないということを知っており,また,エージェント2のパーティ ションは□または■であることも知っている.よって以下のように2つの場合 に分けて証明する.

 

エージェント2の推論.
 以上の考察から分かったことは,「パーティション□あるいは◇のときは 取り引きしない」というエージェント2の戦略と,「パーティション ◎あるいは○のときは取り引きしない」というエージェント1の戦略 である.したがって,ω=3のときにのみ,この取り引きが成立しう る.  このようにωの下で成立しうる取り引きがあって,各トレーダーがそ れを望んでいても,この事実が共通知識である限り,取り引きしないの と無差別になってしまうというのが,"no trade result"(Milgrom and Stokeyの定理1)の内容である.また厳密にリスク回避的なトレーダーなら, 取り引きそのものが成立しなくなる.

Prologによるシミュレーション(2):投機的取引

 ホームページに掲載したPrologプログラムtrade.plは, MilgromとStokeyの例題における相互知識推論と意思決定をシミュレート する.これは基本的に帽子パズルと同じアルゴリズムによって再現される. 以下にその実行画面の一部を示す.


?- [trade].
% --------------------------------------------------------- %
%     simulating common knowledge and speculative trade.    %
% --------------------------------------------------------- %
% trade compiled 0.01 sec, 0 bytes

Yes
?- trader(naive,J,s3,Q,D).

J = 1
Q = 0.666667
D = ok ;

J = 2
Q = 0.666667
D = ok ;

No
?- trader(sophist,J,s3,Q,D).

J = 1
Q = 0.666667
D = ok ;

J = 2
Q = 0.666667
D = ok ;

No
?- trader(rational,J,(T,s3),Q,D).

J = 1
T = 1
Q = 0.666667
D = ok ;

J = 2
T = 2
Q = 0.666667
D = ok ;

J = 1
T = 3
Q = 0.5
D = indifferent ;

J = 2
T = 4
Q = 0.5
D = indifferent ;

J = 1
T = 5
Q = 0.5
D = indifferent ;

J = 2
T = 6
Q = 0.5
D = indifferent 

Yes


投機の可能性:エラーのある情報処理

投機的取引を可能にする要因:
 Milgrom and Stokeyの例題では,取引が得になるとは誰も考えないのは以下 のような考えをたどればとうぜんであると納得できるだろう.  まず両者のパーティション 情報構造と合理性を既知(つまり共通知識)として出発する. メッセージのやりとりを通じて,その背景にある私的情報が徐々にリビール される.その結果,以下に記述するシミュレーション結果によって確かめら れるように,各自のパーティションは,結局は真の状態だけを含む集合にな る.真の状態について合意できれば,いずれが勝つかについて異論をさしは さむ余地はもはやない.

 あるいは最終的 にどんなパーティションになろうとも,もしそれが共通知識であるならば, それによって条件付けされた期待勝利確率が1/2を超えるかどうかが共通 知識であり,それゆえ両者とも勝ち負けがいずれに付くか,あるいは引き分 けであるかについて,一致する見解を持つに至っていなければならない.

?- partition(J,T,s3,H).

J = 1
T = 0/7
H = [s2, s3] ;

J = 2
T = 0/7
H = [s3, s4] ;

J = 1
T = 1/7
H = [s2, s3] ;

J = 2
T = 1/7
H = [s3, s4] ;

J = 1
T = 2/7
H = [s3] ;

J = 2
T = 2/7
H = [s3, s4] ;

J = 1
T = 3/7
H = [s3] ;

J = 2
T = 3/7
H = [s3] ;

J = 1
T = 4/7
H = [s3] ;

J = 2
T = 4/7
H = [s3] ;

J = 1
T = 5/7
H = [s3] 

Yes
 ところで上のメッセージプロセスは正直に自分のパーティション上での 期待勝率を計算して合意するかしないかを応答し,また他者の応答を もとに逐次更新している.素朴な疑問として,次のようなことが浮かぶ. (三味線を弾くというか,)自分のパーティションを 偽るように応答して,相手を出し抜くことは本当に不可能なのだろうか?(※)

(※)もしかすると真の情報集合を虚るような振る舞いによって, 自分の利益になる結果を誘導できるエージェントがいるかもしれないということ. おそらくこれは不完全情報下での遂行問題に翻訳可能だ.しかし 共通知識の文脈では,現在の情報集合の下での推論結果に基づき, 正直に応答するメッセージプロセスが仮定されている.

 また,例題のパーティションと勝率表は,各エージェントについて一見して 対称的になっているが,メッセージ応答の手番ゆえに,s2とs4では異なる 応答結果が生じる.s4ではエージェント2が有利だが,いったん両者が仮の OKを出した後,真の状態がリビールして1はこれを撤回する.(s4では 1は2の答えを聞くと真の状態を推論できるが,2はいずれの可能な状態も 1の最適応答が変わらないので消去推論できない.)したがって, メッセージプロセ スに適当な打ち切りルールを設ければ,取引が成立しうることは明らかだろう.

 投機定理の成否が,情報処理エラーの存在(すなわち非合理性)の導入や, 共通知識の仮定の緩和に影響されうることは,比較的 早くから知られていた(Geanakoplos, 1989). ただしそのモデルの緩和の仕方はさまざまであり,それによって異なる 結果が導かれている(Sonsino, 1995; Neeman, 1996a; Rubinstein, 1989).

 初期の文献では,Geanakoplos(1989)による非パーティションや, Dowらの未発表論文における信念関数(非加法的確率),あるいは 信念関数と密接に関わる多重事前確率を使えば,合理性の 仮定を緩和して投機的取引を発せさせることが可能であることが示唆され, その後の多くの論文において参照されている. ただしGeanakoplos(1989)はWEBから入手できる.

 また,後述するMonderer and Samet によって導入された 確率的共通信念(common p-belief)による近似により,投機定理を覆すこ とができる(Neeman, 1996a).

 Samet(1990)は非パーティション情報構造への一般化がAumannの 結果を保つことを示した.しかし Rubinstein and Wolinsky(1990)が論じたように, この一般化はMilgromとStokeyの結果を保たない. またこれは論理的には,合意定理と投機定理のちがいは,問題の焦点となる エージェントの合理的期待が,「ある値」か,あるいは「ある値以上」で あるかについて真偽を問う命題のタイプの差にすぎないということを Rubinstein and Wolinskyは説いている.

 たとえばAumannの合意定理では,

がポイントになっている.つまり互いに交わらない2つの事象X1とX2の いずれも同じ確率なら,その集合和をとってもやはり同じ確率という条件である.

 またRubinsteinとWolinskyは,非パーティション情報構造の場合における投機的 取引の発生の論理的原因を,条件付き期待利得の比較計算において 「集合差の下での保存」が満たされないこととして特定化した.すなわち,

は,MilgromとStokey(1982)の結果を導くための条件である.

 集合差の下での保存則は,もし2つの不確実な代替案aとbのランク関係 を変えないように共通事象X(X1とX2の差分事象である)を追加できた ならば,その追加部分の共通事象Xにおけるランク関係も同じであることを 述べている.しかし一般化された情報構造の下では,この期待効用の比較に ついての集合差の下での真理値が保存するとはかぎらない.

情報処理エラーと非パーティション:

 しかし,期待勝利確率が1/2を上回っているかどうか にかんして厳密に共通知識が成立すると仮定すると,唯一,投機的取引 があるうる状況は,両者が共にEvenの確率を誤認識していて,その ことを誤りと気づかぬまま共通知識として信じている場合であることに 注意しよう.しかしパーティション情報構造を維持したままでは,知識 の公理が成り立つから,これは不可能である.

 したがって投機発生の ためには,そのような誤伝のありうる情報構造を作るか,あるいは,例 えばNeeman(1996a)やSonsino(1995)のように,Monderer and Samet(1989) の方法で共通知識 の仮定を緩和することにより,不一致への合意自体を可能にする必要が ある.両者の方法は共にそれぞれ批判がある.前者は合理性の限界あるいは非合理 性の程度について何らかの客観的基準を持たぬ限りにおいて,合理性概 念が無内容となる.一方,上で述べた合意定理と投機定理の非対称性から, 後者はタイトな方法ではないように思われる.

 Rubinstein and Wolinskyの最後の例に倣って,投機を発生させる情報構造 を作ってみよう.例えば,Milgrom and Stokeyの例題において,エージェント 1のs1およびs5における情報集合を 以下のように修正する.条件付き期待勝利確率から,最適応答は 以下のようになり,1はどの状態でもチャレンジしたくなる.しかし差分集合 {s4}や{s1,s5}では評価が逆転している.それゆえ この例は差集合の下での真理値保存に違反する.

 P(s1)={s1,s2,s3,s5} →勝率45/80→ Ok 
 P(s2)=P(s3)={s2,s3} →勝率20/30→ Ok 
 P(s4)={s4,s5} →勝率25/45→ Ok 
 P(s5)={s5} →勝率20/25→ Ok

 もちろんs1やs4での真の1の勝率は1/5あるいは1/4にすぎないから, この誤った認識の下で,1はs1やs4においてOKすれば本来勝ち目のない 賭けに打って出ることになる.また対称的に2のパーティションもこのような 非パーティションに変えれば,取引が成立するだろうか?  (シミュレーション結果は後の部分で示した.)

 ところでこうした非パーティション情報構造が,合理的でないエージェントを記述 することは自明ではない.というのは,情報構造をそれ自体を共通知識として仮 定することができるとすると,自己認識によって情報がリビールされるためである. 例えば,上で述べた非パーティションの例をエージェント自身が知っているとすれば, s4においてエージェント1は{s5}を知らないので,s5に自分は いないと推理してこれを除外できるはずである.

 つまりSamet(1990)の示したように,「無知の知」の公理を放棄し, それによってはじめて,上で述べたような推理が阻止され, 非パーティション情報構造の下で投機を可能にする.

 Geanakoplos(1989,1990,1994)は,このような非パーティション情報構造 を「情報処理の失敗」として説明している.いいかえれば, 非パーティション情報構造を持つエージェントは,それ自体 がいくつか のパーティション型情報構造を持ったエージェントから成るサブシステム であると解釈することは可能だが,そうした多重自己解釈では,何らかの 原因で情報伝達と相互推論のプロセスのどこかに誤りが生じた結果,正し く自己意識にアクセスできないと言う追加的仮定をおかなければならない. 情報処理エラーのアプローチもやはり 何らかの形で(情報構造についての)共通知識の仮定を緩和しなければ ならないことは明らかだろう.

 なお多重事前確率(multiple prior)による方法では,一定のdisagreement を予め仮定しておき,パレート改善する取引をモデル化することができる. 実は,のみならず投機定理の完備化(不合意←→取引)になっている. このパズルが提示されたのは比較的最近である (Billot, Chateauneuf, Gilboa and Tallon, 2000). すなわち,期待効用モデルの下では,ベイジアンたるエージェントは, 合意するか取引にやぶさかでないかのいずれかの態度をとるが,マキシミン 期待効用(※)に一般化すると,エージェント間で最低1つの事前確率が共有 されていれば,不合意があっても取引しないグレーゾーンを作れる. またそういう優柔不断なエージェントが存在するなら,ベイジアンの 世界の補空間に我々はいることになる.

(※)マキシミン期待効用(MEU)はショケ期待効用(CEU)と一般に同じで はないが,凸容量の場合はそれを含む.より正しくは,凸容量のコアは Shapleyの定理により非空であり,そのマキシミン期待効用とその凸容 量のショケ期待効用が一致する.なお, 凸容量の場合のこれらのモデルは,あいまいな確率を嫌う意思決定者 を記述する(Schmeidler, 1989; Gilboa and Schmeidler, 1993).

 最後に,以上のようなペアワイズの取引によるパレート改善の可能性 だけでなく,任意の有限ステップでのペアワイズ取引の連続により生じる パレート改善についてはどのようにその可能性をエージェントが認識できる だろうか? おそらくこの問いについてはオープンクエスチョンだが, 割当問題(輸送ネットワーク問題)の解法における,負の限界費用 サイクル消去のアルゴリズムにヒントを求めることは可能だろう. 市場メカニズムの研究は,そうした計画者の視点での集権的アル ゴリズムを,分権化したアルゴリズムで置き換える方法を考える ことでもある.

Prologによるシミュレーション(3):取引を可能にする非パーティション

 状態s4では元のパーティションの場合,シミュレーション結果を見ると, 確かに最初は1も仮の合意をしているが,2の返答を聞いた後,やはり翻意 して拒絶する.

?- trader(rational,J,(T,s4),Q,D).

J = 1
T = 1
Q = 0.555556
D = ok ;

J = 2
T = 2
Q = 0.666667
D = ok ;

J = 1
T = 3
Q = 0.25
D = reject ;

J = 2
T = 4
Q = 0.75
D = ok ;

J = 1
T = 5
Q = 0.25
D = reject ;

J = 2
T = 6
Q = 0.75
D = ok

 Prologプログラムtrade.plで,エージェントのパーティション の部分を次のように変更した後,やはりs4で trader/5 を実行すると,取引への合意が達成される.また 他のいずれの状態においても,合意が成立する.

partition(1,s1,[s1,s2,s3,s5]).
partition(1,S,[s2,s3]):-member(S,[s2,s3]).
partition(1,s4,[s4,s5]).
partition(1,s5,[s5]).
partition(2,s1,[s1]).
partition(2,s2,[s1,s2]).
partition(2,S,[s3,s4]):-member(S,[s3,s4]).
partition(2,s5,[s1,s3,s4,s5]).
?- trader(rational,J,(T,s4),Q,D).

J = 1
T = 1
Q = 0.555556
D = ok ;

J = 2
T = 2
Q = 0.666667
D = ok ;

J = 1
T = 3
Q = 0.555556
D = ok ;

J = 2
T = 4
Q = 0.666667
D = ok ;

J = 1
T = 5
Q = 0.555556
D = ok ;


共通知識研究の背景:認識論理学など

 Aumannが参照している David Lewis は,可能世界意味論とそれに基づく 確率,言語,社会慣習の研究をテーマとしていたが,その文脈において, 共通知識を無限の 相互推論列として定義した(Lewis, 1969).可能的世界意味論(クリプキ構 造ないしや様相体系)そして状況意味論に基づく共通知識へのアプローチ はその後,分散計算環 境で同種の問題に直面するコンピュータ科学者たちの手を経て,分散人工 知能の分野でもよく論じられる学際的話題になった.様相論理学を ベースにしたこの分野の入門はFagin,Halpernらによる著作にまとめられている (Fagin, Halpern, Moses, and Vardi, 1995).また「知識推論の理論的側面 についての国際会議(TARK)」の予稿集からその活動の一部を知ることができる.

 現在までに,これらの認識論的デバイスの性質と同等性は,研究者たちに よって整理されており,よく知られることになった (Billot and Walliser, 1999; Lismont and Mongin, 1997). またナッシュ均衡や部分ゲーム完全均衡 を論理的に導くために,どの程度の深さの相互知識が必要か,またという問題も Aumannらによって一応の解決がなされている(Aumann and Brandenburger, 1995; Aumann, 1995). ゲーム理論を基礎付けるための意思決定論のレベルでのこの種の議論も 行われている(Morris, 1996; Mukerji, 1997; またLismont and Mongin(1997)が所収されているBacharachら認識論理に基づく ゲーム理論の基礎づけに取り組んだ研究者らの論文を集めた書籍も参照).

知識オペレータ

 ω∈Ωにおけるパーティションの合併としての共通知識は,次の無限の(相互) 知識オペレータKの繰り返し適用による共通知識の定義と一致する.

(共通知識)

 各エージェントの知識オペレータKの満たすべき基本性質は,KE⊆E(知っている ことは真である),KKE⊆KE(知っていることについては知っているというこ とを知っている),¬KE⊆K¬KE(知らないことについては知らないというこ とを知っている),E⊆F→KE⊆KF(あることよりも細かいことを知っている なら,そのことについても知っている)といった諸性質(表4参照)を満足するも のであればよい.

 また一方,P(・)がパーティションである必要もない.こうした情報モデル は,より一般的に可能性対応(possibility correspondences)と呼ばれる.知識 オペレータKと可能性対応Pの関係は,

 KE ⇔ P(s)⊆E,

より正確には

 KE={ω∈Ω|P(ω)⊆E},E⊆Ω,

およびその双対オペレータは

 K# E≡¬K¬E={ω∈Ω|P(ω)∩E≠φ},E⊆Ω

と定義され,Eは「受け入れられる」あるいは「可能であると考えられる」 と解釈される.

 Sametによる非パーティション構造(様相体系S4)への一般化は, 否定的内省(negative introspection)の公理

 ¬KE⊆K¬KE,

を成立させない.つまりこの無知の知の公理は非パーティションでは 成立しないため,エージェントは知らないこと についてはそれを知らないということ自体を知っているとは限らない.

 実際,帽子パズルでは無知の表明メッセージが情報を伝播し, またそれによりメッセージプロセスにおいて不動点となる応答の組 (dk,dk,know)が収束し,共通知識として達成されたことを 思い出そう.

 もし無知の知が成立しないならば,エージェントは正しく無知ゆえに 不可能と思われる状態を推論により消去できない.つまり,子供3 は状態rrwを仮定して,子供2の推論についてのメンタルモデルを作り, 子供2が子供1のdkアナウンスを聞き,rwwの可能性を消去する という推理がブロックされる.その場合,共通知識となるミートは Ωのままだから,(dk,dk,dk)のまま巡回し続けるだろう.


表4.知識オペレータの諸性質(Billot and Walliser,1999)
Kの公理(通称)    公理の内容              同値の定理	   
―――――――――――――――――――――――――――――――― 
A1.(論理的全知)  E⊆F→KE⊆KF            K(E∩F)=KE∩KF      
A2.(知識)        KE⊆E                   E⊆K#E               
A3.(肯定的内省)  KE⊆KKE                 ¬K¬E⊆K¬K#E       
A4.(否定的内省)  ¬KE⊆K¬KE             K#E⊆KK#E            
A5.(分別)        F≠φ,                                      
                   K#E=K#F→E∩F≠φ      KE=KF→E∪F=Ω     
A6.(統合性 )     KE≠φ→K#E=Ω         K#E≠S→KE=φ      
A7.(累積性)      K#E−KE⊆K#F−KF  または  K#E−KE⊇K#F−KF   
――――――――――――――――――――――――――――――――

 特別な非パーティション情報構造として,情報集合が他の情報集合に包摂 される場合を許したものがネスト(入れ子)である.とくにパーティション とネストによって表される任意の情報構造(=可能性対応) の下で情報集合間のアクセシビリティ関係を定義する認識モデリングは, 論理学においてクリプキ構造(可能的世界意味論ないし様相体系)と呼ばれ る.またAumannの情報構造とその一般化を含めた確率的信念モデル,および Dempster-Shaferの信念関数として知られている証拠推論システムは,いずれ も同じものというわけではないが,その構造上,同じ種類の知識モデル と考えることができる(Billot and Walliser, 1999; Mukerji, 1997).

 信念関数は,各事象には完全凸容量が割り当てられるが,共通知識モデル の文脈での情報集合を合併する手続きに似 て,集合の包含関係の順に確率割り当て(マス)と呼ばれる流量を合計して いくことにより定義されている.その共役概念である可能性関数 は共通部分が空でない集合の総流量によって定義される.これらは 2つの知識オペレーターKとK#と同じ形式の構文論的パートを持つ.

 ショケ期待効用(ランク依存期待効用)は,凸容量(非加法的確率)の下 での累積効用として表現されるが,確実性原理(独立性公理)を 緩和したもので,ランクを変えない共通事象を追加したときは2つのくじ間 の評価が保たれる.すわわちRubinstein and Wolinskyのいう差集合の下での 真理値保存則が成り立つ.

 ショケ期待効用最大化はネストによるランク比較につい ての記憶を持つ限界合理的エージェントの最適化行動と一致する(Mukerji, 1997).それゆえ前出の投機的取引を可能にするネストでない非パーティション の例では,情報処理のエラーのためにこの種の記憶が正しく作動せず,集合 差についての保存則が成り立たないが,このため非単調な容量の下での ショケ期待効用のバージョン(累積プロスペクト理論)の最大化と解釈 できるかもしれない.(この推測はあやしいです.)

 以下では共通知識がゲーム理論で研究されることになった背景などに ついて補足する.

 従来の不完全情報ゲーム理論では,プレイヤーの情報構造は,決定木 (ないしゲームの木)における選択ノードのパーティションとして, 便宜的に表現されていた.しかし理論予測の完全性を維持しようとして 逐次合理性の仮定だけでなく共通知識の仮定を明示的に用いてゲームの 解を推論しようとすると,よく知られる意思決定背理 (Pettit and Sugden, 1989) の類似物を導く (Selten and Leopold, 1982; Gilboa and Schmeidler, 1988).

 また,理論的な決定不可能性の代償として,適切な確率論的 デバイスを用意すれば,理論の記述力は格段に豊かになる. たとえば,逐次ゲームにおける均衡を企業競争力についての 「評判」のモデルに応用したKreps,Milgrom,Robertsらの研究は,産業組織 の分野へのゲーム理論分析を可能にし,1980年代に復興したゲーム理論の 一つの目玉に数えられた.逐次ゲームにおける評判の形成は, 有限反復囚人ジレンマゲームにおける協力解の達成不可能( いわゆるチェーンストアパラドックス)とい うよく知られた背理を覆えす結果だった.

 そのため----たとえ真の状態はそうでないにせよ----ゲーム理論自体の 論理に内部矛盾があるのではないかという 疑いが生まれ,ゲーム理論家自身がその問題に答える試みを行ってきた. 例えば1980年代までのそうした一連の動向について振り返って, Gilboa(1990)が代替案を述べている.(※)

(※)バックワードインダクションの項目を参照.

 より最近では不完全想起(imperfect recall)の下では,情報集合の 解釈があいまいになるが,これはとくに失念(absetmindedness) がもたらす奇妙な現象として知られる.これも同種の背理に通じる とされている(Piccione and Rubinstein, 1997; Dekel and Gul, 1997).

 こうした背景から,共通知識の扱いは1980年代以降ゲーム 理論家たち(Dekel and Gul(1997), Geanakoplos(1994)にレビュー されている)の関心事の一つになっていったものと思われる. そしてゲームの解を導くためのプレイヤーのモデルに, 確率論や論理学以外の,(原理的にはそれと同等なのだが)チューリング マシンないし有限オートマトンといった計算論的デバイスを用いる アプローチも時を同じくして始まった(Binmore, 1987).

 またエージェント間の合意を達するコミュニケーション・プロトコー ルの設計については,分散計算環境を論じる情報科学者たちによって 伝統的に研究された.古典的には哲学者の食事問題のような穏やかな 例題が知られるが,共通知識の達成と投機的実行に関して言えば, ビザンチン合意問題(将軍間の協調攻撃)が,その 悪名高い例題だ.その流れからの文献としてParikh,Krauskiの 論文をあげておく(Parikh and Krauski,1990; Krauscki, 1996).

 蛇足かも知れないが,共通知識問題は分権的なメッセージプロセスの を扱うメカニズムデザイン研究の流れとは独立しているが, モデルとしては明らかに関わりがある.ただし, 後者は社会選択環境や市場メカニズムなどの経済学的システム におけるネットワークコミュニケーション問題に特化している. もちろん投機的取引がそうであるように,相互知識推論の問題は, 合理的期待均衡あるいは誘因の問題において潜在的に重要な役割を 果たしているものの,コミュニケーション問題とは 切り離されて考えられている.

 誘因制御に関していえば,おそらく, このことがわざわいして長らく遂行問題の厳密なつめが甘かった と思われる.実際,抽象的な社会選択環境でのナッシュ遂行理論で最後まで オープンクエスチョンだった,出し抜かれる可能性のある「忌避的代替案」 (awkward outcomes)を反復消去するアルゴリズムは, Sjostromによって1990年代初めに提案された.

 また合理的期待に関するアノマリーは比較的早くから 経済学を学ぶ人々の間で噂された.有限期間の逐次意思決定を考えた ときは,証明に後方帰納を使うため,この種の問題が避けられなくな るわけだが,しかし経済学のプロパーの 研究者とって,通常は---例えばRubinsteinの逐次交渉モデルのように, 高度に技術的だが,現実の場面では例外的であるといった 印象を与えていた可能性がある.


バックワードインダクションと均衡洗練

 バックワードインダクション(後方帰納)は,最終期のある動的意思 決定問題や展開形ゲームの最適解を求めるための推論方法である.ゲーム 理論の場合,プレイヤーの合理性についての仮定,すなわち効用最大化行 動がプレイヤー間の 共通知識であると仮定して,決定木(ゲーム木)上の各手番におけるプレ イヤーのベストな行動を(すべてのプレイヤーが)内的にシミュレーショ ンできるという前提で,この推論はゲームの最終局面から,順に遡ってゲ ームの開始時点まで進められる.

 たとえば前述の帽子パズルにおける子供3の推論は,この種のバックワ ードインダクションにしたがっている.図6にそれに対応する決定木を示す. ただし図中では,例えばω=rrrを[rrr]のように書く.またP3やP32は,エー ジェント3が可能と考える事象, あるいはエージェント3が可能と考えるエージェント2が可能と考える事象 を表す.推論の系列と木の対応関係を理解することは容易だろう.子供3の推論に したがって,図6の木において 後方(=右端)から逐次不可能な状態が消去されていき,[rrr]だけが残る.


 ω∈{rrr,rrw,rwr,wrr,rww,wrw,wwr,www},

     P3     P3P2     P3P2P1        
  [rrr]ーーー→[rrw]ーーー→[rww]ーーー→[www] 
  |      |     |         
  |P3     |P3P2   |P3P2P1      
  ↓      ↓     ↓         
  [rrr]     [rrw]   [rww]        

図6.帽子パズルにおけるバックワードインダクションを辿るための決定木

(後方帰納) ある戦略が最適であるのは,ゲームの木における初期節点を除く,すべての情報集合,すなわちその時点でエージェントにとって区別できない節点の集まりにおいて,その戦略が最適戦略になっているとき,かつそのときだけである.

 後方帰納解はたとえゲームの途中であるプレイヤーが均衡から外れる戦略をプレイしたとしても,残りのゲームで均衡戦略から逸脱する動機を与えないから,ナッシュ均衡の定義としての最適反応の性質をすべての部分ゲームにおいて満足する(Selten(1975)の部分ゲーム完全性).

 バックワードインダクションでは,それが最適解で選ばれようと選ば れまいと,とにかくすべての手番でのベストな行動を考えにいれて最適解 を定める.

 すなわち「とにかく考えてみた.」だけの「もし,ここにやって来 たら,・・・」という仮定推論をゲーム木の各情報集合において悉皆 的に実行する.このとき,これらの情報集合の中には均衡戦略で選ばれ ないものが入っており,それらには確率0が割り当てられている. こうして前提条件が偽である反事実的条件文(counterfactual)の意味を もつ情報集合に対しても,それを帰結した途中までの戦歴が合理であろう とあるまいとにかかわらず,そこから先の合理的戦略を推論しなければな らない.(※1)

 バックワードインダクション解を始めとして,逐次均衡や固有均衡や 戦略的安定性やリスク支配といったさまざまなナッシュ均衡洗練に共通 することは, その手番にやって来たときの各プレイヤーの信念についての合理性の 仮定とそれが共通知識であることを仮定して,劣った戦略を消去する 論法だ.(より正確には ある与えられたモデルパラメータに対して不連続な均衡対応を消去する.)

 また,それゆえバックワードインダクションを使うと,均衡解に達する シナリオで経由されない,選ばれない手番には とうぜん確率0が割り当てられる.もし均衡からひとたび外れてしまえば, ベイズルールに基づく合理性は,もはや解を絞り込むための 役に立たない(分母が0だから定義できず,ゆえに空虚に満たされる). このため,均衡外の手番を含む情報集合においてどれほどの可能性が信じら れているかは,ゲーム分析者が恣意的に設定するか,あるいは測度0の ときにも使える(例えばDempster-Shaferルールのような)更新ルールを用い る必要があるが,またそれを利用すれば分析者にとって都合の悪い均衡を 取り除くことができるという算段である.

−−−−−−-−−−−−−−−−−−−−−−
※1 次のような素朴な反論について考えてみよう.もし実際にその 仮定に矛盾する行動が観察されたならば, 以降のプレイでは,もはや合理性についての共通知識の仮定---あるいはそ の仮定に基づいてプレイヤーの知的推論をシミュレーションするコン ピュータプログラムの予測---は信頼できないわけだから,プレイヤー のメンタルモルについて,別の何らかの制 約をおかない限り,その先何が起きるか正確に予測することは困難な はずである.

 上の反論は反事実的条件文(counterfactuals)と呼ばれる条件文の 解釈に関連している.反事実的条件文は原因と結果の関係にしたがって 時間的に変化するシステムにおける意思決定者の知識状態とその後悔 の感覚,またそれゆえに合理性の概念とを関連付けるという点で興味 深い.

 後で述べるフォワードインダクションのように,より日常的な感 覚に近いプレイヤーの心理は,おそらくゲー ムの途中までに,選ばれなかったプレイ(到達しなかった情報集合) が,後の合理的なプレイに影響する可能性を認めるもの,つまり 反事実的条件文に基づく推理によって記述されるものだろう,また 先行する多くの文献では,それゆえ後方帰納と合理性の共通知識の 仮定を同時に用いることに対して,内部矛盾が疑われた.(より正 確にはそれによってゲーム 理論の意思決定論的基礎を証明しようとする試みに対して.)

 Aumann(1995)は,完全情報ゲームにおいて,合理性を共通知識と するような,エージェントたちのパーティション情報構造 (その論文中では知識システムと呼ばれている)が必ず作れて, プレイヤーたちはその後方帰納解を演繹できることを,2つの 定理として示した.

 Aumannが論じているように,むしろ,実際に到達された情報 集合だけに依存する条件文の解釈(すなわち論理学で言う実質含意 p→q=¬p∨q)に基づいて,プレイヤーの戦略についての推論 をモデル化する場合には,たしかに合理性が共通知識であるという 仮定だけをもって,後方帰納解を演繹することはできない.反事実 的条件文との混合による推論を用い,「実際に到達することはないと 知っている情報集合についてでさえも,プレイヤーがどのように合 理的にふるまうか」すなわちAumannの言うSubstantive Rationality が共通知識であると仮定されることによってはじ めてそれが十分条件となるのである.

 プレイヤーの合理性についての共通知識の仮定を維持することは, その意味では非常に強い制約になる.要するに,合理性そのものは各 情報集合において以降の条件付利得を計算することを要請するが,そ れは過去のプレイの記憶を無視してよいということではない.

 ところでプレイヤーによる戦略についての推論は反事実的条件文 として解釈されるべきだという議論は以前からあったが,合意され たモデルはなかった(例えばSelten and Leopold(1982)やHarper (1986),あるいはBicchieri(1993)を参照).またVilks(1997)は, 展開形ゲームにおけるプレイヤーの合理性を,実質含意を用いて モデル化するときに生じる問題点を論じている.

 さてAumann(1995)は完全情報ゲームにおけるプレイヤーの合理性を, 次のように,プレイヤーの知識と結びつけ,反事実的条件文を用いて, 「後悔なし」の意味合いで,定義している.

 状態ωにおいて,ゲーム木上である行動計画(戦略)の組 s が用いら れてプレイヤー j が実際に自分の手番である頂点 v に到達したとき, それ以降の条件付利得 h(j,v) (s) は,sの指定するs(j,v) 以外の 他の行動 a(j,v) を実行したとして,これを超えることを j が「知 っている」ということがないならば,このプレイヤー j はその頂点 v において合理的である.

 Aumannの記法に従って,任意の命題σが成り立つ事象を[σ]と書 くことにすると,上で述べた合理性の定義は,次のように定式化される. ただし,s/a(j,v) は戦略組sを,その頂点vでのプレイヤーjについて の行動を別の戦略aのそれに置き換えたものとする.

 Rj= ∩ ¬Kj[h(j,v) (s/a)>h(j,v) (s)] (v,a)

 またどの頂点でも合理的であるプレイヤーは 合理的である.これは期待効用最大化の仮定から導かれる ことであり,確率モデルでない場合も使えるより弱い合理性概念である.

 これに加えて,合理性についての共通知識の仮定を追加することに より,各プレイヤーの後方帰納にしたがって,最適行動計画 b

 h(j,v) (b) ≧ h(j,v) (b/a)

が得られる(計画がそのとき何を指示するかはプレイ履歴に依存するが, 予めそのとき取るべき行動はこの推論の中でシミュレート済である).

 そこで合理性Rが共通知識であること,CK(R)を仮定して,後方帰納 解bが各頂点で 全員によって用いられていることを[ss(v)=b(v)]と書けば,これを各プ レイヤーは,正しく推論によって知る,すなわちCK(R)⊆[ss(v)=b(v)] が,Aumannの定理Aの主旨である.

 2つの定理(Aumann, 1995)に基づく合理性についての共通知識の仮 定(CKR)にかんするAumannの診断は,以下のようにまとめられる.こ の仮定自体は理想化されたものにすぎないから,現実のモデリングで 仮定されるべき理由はない.なぜならばCKRを緩和すれば,合理性 に基づくゲーム結果の予測は,それとはかなり異なるものになる場合 があるからである.またCKRが成立していないにもかかわらず,後 方帰納を素朴に適用すれば, ---唯一の非協力均衡へ縮退する有限繰り返し囚人ジレンマ型の数々の 例題,Rosentahl(1982)のムカデゲーム,Basu(1990)の旅行者のジレンマ, その他例えば公共財自発的供給,実績主義の績評価指標の例,取引なし の結果,あるいは下降局面にある証券市場においてヘッジファンドに頼 るトレーダー心理のように, --- 各自が合理的な行動を選んだつもりが,それによってかえって明らかに 非合理的な結果を導くことになりかねない.

 Aumann(1998)は上のモデルを少し変えたバージョンにおいて, Rosentahlのムカデゲームにおいて後方帰納解を推論できることを示し ている.そこでは実際に到達するノードだけで合理的行動を考えるこ と(=Material Rationality)が共通知識であると仮定している. つまり反事実的条件文よりも 弱い実質含意の下ですら,CKRの仮定は後方帰納を帰結する ことがある.

 一見すると,後方帰納にしたがって最初のプレイヤーが合理的に 退出してゲームを終わらせるとその後の合理性(MR)を吟味する必 要がもはやないから,これは自明であるように思われる.

 注意すべきは,Aumann(1998)では合理性が選択時点(とそこにおけ る知識状態)に依存する概念として述べられていることである.

 Rj= ∩ ¬Kj,v[h(j,v) (s/aj)>h(j,v) (s)] aj

これをAumannは事後的合理性と呼んでおり,以前のものよりも若干強く, かつ直観に適合する.一方,共通知識の仮定は, 両論文を通じてゲームのスタート時点で成立していると考えられてい る.しかしもし実質含意に基づく事前合理性に取り替えると,ムカデ ゲームで後方帰納を論理的に帰結できない.

 後方帰納解ではSubjenctiveに非合理的な行動を考慮して合理的選択 を証明する.一方,もしムカデゲームで最初のプレイヤーが退出し なかったとしても,もはやCKRは成り立っていないのだから,この ことは上の理論の正しさに何の影響も及ぼさないだろう.また合理性の 仮定がむしろ弱ければ,Aumann(1998)が示したように,矛盾は生じない. いいかえれば,多くの先行研究で論じられてきたにも関わらず,反事実 的条件文をどのようにゲーム理論に取り込むかということにかんして, ただし論理的予測力の欠如という代償を支払えばだが,ゲーム理論家は 無関心でいられる.

 おそらく, この文脈で論じられてきたことの主眼は,結果主義的でない合理性 とその共通知識の仮定の緩和との間の,納得できる共変化のメカニ ズムであり,どこまで後方帰納に合理的に固執できるかということ ではなかったはずだろう.

−−−−−−-−−−−−−−−−−−−−−−

 ところで,合理性とゲーム木(情報構造と利得構造)が共通知識である と仮定した上で,ゲームプレイヤーは,均衡解では観察されないはずの 行動をあえて実行することで,相手プレイヤーに対して,一定の悪い均衡を除外して その意図した解を推論させるためのシグナルを伝えることができるかも しれない.このようなプレイヤーの推理の初歩的なものは,従来のゲー ム理論において,シグナリングとか(広い意味で)フォワードインダク ション(Abreu and Pearce, 1984; Kohlberg and Mertens, 1986),あるいは 確実性推論(Harper, 1994)と呼ばれていた.

 この種の意図推論のメカニズムは,後述するように, 言語的(あるいは非言語的)コミュニケーションの研究者(Grice, 1975) たちによって,いくつかの分野にわたり,熱心に論じられてきた ことに通じる.またゲーム理論では,「コミットメント」という概念 で,あいまいに指し示している場合もある.

  1  b1  2  b2  z'    
  □――――→○――――→●――→[1,4]
 a1|     | 1 ・ |  r  
  |    a2|  ・  ↓l   
  ↓     | ・   [0,0]  
  [2,5]    ↓・        
       z●――→[0,0]   
        |  r      
        l↓        
       [4,1]
図7.シグナリング・ゲームと前方帰納(Bicchieri(1993), p.101. figure 3.6)

 例えば図7のゲームではプレイヤー2の手番○においてb2かa2のいずれか が選ばれる.しかし後続する手番z∪z'のプレイヤー1はそれがどちらだったか ゲーム終了直前まで知り得ない.2つのノードzとz’をつなぐ点線・・・は プレイヤー1の情報集合{z,z'}を表し,1がそれらを区別できない認知状 況をモデル化している.

 一方もし最初の手番でプレイヤー1がa1を選んだ場合はプレイヤー2はそれ を観察できるので,各利得を両者の共通知識であると仮定すると, すなわちb1が選ばれなかったという事実は,1の2に対する一種のシグナルとな り,その意図をプレイヤー2が以下のような論法に基づいて推理でき,それゆえ1は 手番z∪z'ではけしてrを選ぶことはないと確信するかもしれない.

 もしプレイヤー1が2を獲得でき るチャンスをあえて捨てて,なおかつ合理的な意図を持っているのだとするなら ば,2を超える利得を欲しているはずだろう. もちろんそのためには,それを1は期待しており,またその1の期待は2に通じ ると1は信じている必要があるが,両者の合理性が共通知識であると仮定すれば このときプレイヤー2の最適反応はL2であるから,1の期待通りになる.

 こうして,1の賭した逸脱プレイによる意図のあるシグナルは,両プレイヤー の合理性とその共通知識の仮定に基づいて推理した結果,プレイヤー1の行動計 画に対する,ゲームの均衡は(b1,a2,l)であることが判明する.

 このような逸脱的シグナルに基づく戦略的意図の推理は,次のような 反復支配原理(Iterated Dominace)と矛盾しない.

(反復支配原理) 禁足力のある均衡は,(弱く)支配される戦略を消去した残りのゲ ームでも禁足力がないといけない.

 代替案Aが代替案Bを(弱く)支配する(A weekly dominates B)というのは, いかなる予測できない状態が生じても,つねにその状態の下でAがもたらす結果は, 同じ状態の下でBがもたらす結果よりも劣っていない場合である.

 実際,表2のように図のゲーム木を対応する利得表に書き直すことによって, まずプレイヤー1の行動戦略(a1,l)が(b1,l)あるいは(a1,r) によって強支配されており,次にこれを消去した表3において弱く支配された 2の戦略b2を消去する.残された戦略組からなるゲームにおいて,明らかに a2に対するプレイヤー1の最適反応は(a1,l)である.

 上で述べたことは,共通知識の仮定の下での不合意の不可能性による 制約が,共通知識の仮定を緩和すれば緩和されるだろうという予測と矛 盾しない.またその場合,Bernheim and Pearceの意味での合理化可能性 (rationalizability)に基づく反復的な戦略消去はそれを含む より広い集合になる.

 より厳密には,標準形ゲームで最初に弱く支配される戦略をすべて 消去した後,さらに強く支配される戦略を反復消去して残った戦略は, 期待効用最大化の仮説が,後述するMonderer and Samet(1989)の意味で 近似された共通知識であると仮定したときの行動予測と一致する(Bogers, 1994).

表2.図4のゲーム木に対応する標準形ゲーム
  ――――――――――――――――――――――
              2の行動戦略
    1の行動戦略    a2    ×b2
  ――――――――――――――――――――――
    (a1,l)    2,5   2,5     
    (a1,r)    2,5   2,5
    (b1,l)    4,1   0,0
   ×(b1,r)    0,0   1,4
  ――――――――――――――――――――――

表3.表1の標準形ゲームで被支配戦略を消去した後のゲーム
  ――――――――――――――――――――――
              2の行動戦略
    1の行動戦略    a2    ×b2
  ――――――――――――――――――――――
    (a1,l)    2,5   2,5     
    (a1,r)    2,5   2,5
   ○(b1,l)    4,1   0,0
  ――――――――――――――――――――――


Prologによるシミュレーション(5):反復支配均衡

 なお,上のBicchieriの例題についての反復支配組を求める推論は,筆者の 作成したPrologプログラムnash1.plによってシミュレートできる.

 

?- undominated(strong,g40,J,A,B).

J = [1, 2]
A = [ (a1, l), a2]
B = [2, 5] ;

J = [1, 2]
A = [ (a1, r), a2]
B = [2, 5] ;

J = [1, 2]
A = [ (b1, l), a2]
B = [4, 1] ;

J = [1, 2]
A = [ (a1, l), b2]
B = [2, 5] ;

J = [1, 2]
A = [ (a1, r), b2]
B = [2, 5] ;

J = [1, 2]
A = [ (b1, l), b2]
B = [0, 0] ;

No
?- dominated(strong,undoms(g40,strong),J,A,B).

No
?- undominated(strong,undoms(g40,strong),J,A,B).

J = [1, 2]
A = [ (a1, l), a2]
B = [2, 5] ;

J = [1, 2]
A = [ (a1, r), a2]
B = [2, 5] ;

J = [1, 2]
A = [ (b1, l), a2]
B = [4, 1] ;

J = [1, 2]
A = [ (a1, l), b2]
B = [2, 5] ;

J = [1, 2]
A = [ (a1, r), b2]
B = [2, 5] ;

J = [1, 2]
A = [ (b1, l), b2]
B = [0, 0] ;

No
?- undominated(weak,undoms(g40,strong),J,A,B).

J = [1, 2]
A = [ (b1, l), a2]
B = [4, 1] ;

J = [1, 2]
A = [ (b1, l), b2]
B = [0, 0] ;

No
   ところで一見すると,(プレイヤーの合理性についての)共通知識の下で生み 出される無限遡及的な推論の列は, 実際に推論できないのではないかという疑問が生じるかもしれない.しかし, 論理的には,行動予測が共通知識となるという仮定と矛盾しない解概念は (唯一の)ナッシュ均衡だけであり,また混合均衡を共通信念として推論する ための認識論的条件としては, 少なくともプレイヤーの合理性についての共通知識の仮定(それは合理化可能性 と等価だが)にかんしては,多くの先行研究による論争にも かかわらず,実は2階以上の相互推論は省略可能であることがわかった (Gilboa and Schmeidler, 1988; Aumann and Brandenburger, 1995).(※2)

----------------------
※2 上の参照文献について若干補足しておこう. AumannとBrandenburger(1995)によると,より正確にはプレイヤーの 「合理性」についてはいずれにせよ相互知識でよく, 2人ゲームの場合,他者の行動につ いての確率的「予測」についても2階以上の相互推論は不要である. ただし3人以上だと,予測は共通知識となる必要があり,任意の高次相互知識だ けでの場合に対する反例の作り方が具体的に示された.一方,以下で述べる通り, もしナッシュ均衡以外の一致した予測(たとえば支配戦略組)が 共通知識だったとしたなら,他の認識論的条件のどこかが破綻してい ないかぎり論理的に矛盾する.Gilboa and Schmeidler (1988)は,行動予測にペイオフが依存する場合(彼らの言う情報依存ゲーム) におけるゲーム自体および(もしあれば)支配戦略を使うということを 共通知識だと仮定すると,「情報的に矛盾のないプレイ」においてその 予測は共通知識であるが,また,バックワードインダクションの背理や, 他のさまざまな現実的応用において矛盾を生じることを示したもの. これは2階の相互知識までで証明されていた.これは AumannとBrandenburgerの認識論的条件の系とみなせるだろう.
----------------------

 Aumann and Brandenburger(1995)の認識論的条件とは,要するに, プレイヤーたちが共通して一つのナッシュ均衡を推論するための十分条件である. つまり,もしペイオフが互いに分かっていて, それぞれの信念に対して最適反応することもお互いに知っていて, かつその信念(つまり他者の行動についての予想)と事前信念が共通知識 であるならば,全員の予想は一致して一つの混合戦略ナッシュ均衡戦略組を 結論できることを明らかにした.

 また別の研究者たちが,Aumann and Brandenburgerの証明で用いられた Common Priorの仮定も落とせること(Polak, 1999)や, ナッシュ均衡の代わりにCrawford(1990)が導入した「信念における均衡」を 使えば,合理性の仮定を非期待効用(すなわち不確実性 が高く確率が決定できない状況で使えるよう,独立性公理を落として 期待効用モデルを一般化したもの)に緩和した場合にも, そのバージョンが成立することを示した(Volij, 1996).

 Monderer and Samet(1989)の確率的共通信念(common p-belief)は,パーティシ ョン情報構造を維持して,すべてのエージェントのパーティションでの条件付 確率が,共通の確率p以上であること,つまり

 B[i,p]E={ω|μ(E|P[j](ω))≧p}

が,共通知識の場合と同じく,自証的(self-evident)であること,つまり

 E⊆B[i,p]E ∀i

として定義される---これはRubinstein and Wolinskyの近似を1ケースとして 含む.もちろんpが0に近ければ任意の事象がp共通信念になるだろう. またp=1の極限は以前からBrandenburger and Dekelが示していたように 共通知識の定義に一致する.このMonderer and Samet(1989)の確率pの共通信念 においては,前に述べたように投機定理を覆すことをNeemanが示しているが, 別の短い論文でNeemanは確率的共通信念は合意定理も覆し,そのエージェント 間の不一致の最大幅σ は高々σ=1−pであることを示している(Neeman, 1996b).

 いいかえれば確率的共通信念の下でp値は,エージェントの情報構造間 の重複度ないし類似性を測定しているといえる.

 またMorris, Rob, and Shin(1995)により,2人標準形ゲームで

 H[1,p]E = B[1,p]B[2,p](E)∪E

 H[2,p]E = B[2,p]B[1,p](E)∪E

というオペレータH[j,p]を定義し,これを有限回適用して全域Ωに達する ようなpの上限を求めたとき,値σ[j](E)=1−pは信念ポテンシャルと 呼ばれた.またこれら各エージェントとその各パーティションに わたる信念ポテンシャルσ[j]値の最小値σは,特定の事象に依存しないこの 値のことをたんにパーティション情報構造(Morrisらのいう情報システム) の信念ポテンシャルと呼ぶことにする.

Prologによるシミュレーション(6):p共通信念と信念ポテンシャル

 筆者は確率的共通信念と信念ポテンシャルをシミュレートするPrologプロ グラムcpb.plを作成した.以下はMorrisらの例題(p.150)の情報構造について, p共通信念と信念ポテンシャルなどを求めた様子を示す.

% -------------------------------------------------  %
% ex. an information system and a game 
%     in Monderer and Samet(1989)
% -------------------------------------------------  %
partition(1,S,[s1,s2,s3]):-member(S,[s1,s2,s3]).
partition(1,S,[s4,s5,s6]):-member(S,[s4,s5,s6]).
partition(1,S,[s7,s8,s9]):-member(S,[s7,s8,s9]).
partition(2,S,[s1,s4,s7]):-member(S,[s1,s4,s7]).
partition(2,S,[s2,s5,s8]):-member(S,[s2,s5,s8]).
partition(2,S,[s3,s6,s9]):-member(S,[s3,s6,s9]).
prob(bp1,s1, 1/21).
prob(bp1,s2, 1/7).
prob(bp1,s3, 1/7).
prob(bp1,s4, 1/7).
prob(bp1,s5, 1/21).
prob(bp1,s6, 1/7).
prob(bp1,s7, 1/7).
prob(bp1,s8, 1/7).
prob(bp1,s9, 1/21).

?- P is 1/7, p_belief(2,P,[s1,s2,s3],B).

P = 0.142857
B = [s1, s2, s3, s4, s5, s6, s7, s8, s9] 

Yes
?- P is 3/7, p_belief(2,P,[s1,s2,s3],B),p_belief(1,P,B,C).

P = 0.428571
B = [s2, s3, s5, s6, s8, s9]
C = [s1, s2, s3, s4, s5, s6, s7, s8, s9] 

Yes
?- mpb([1,2],P,[s1,s2,s3],H).

P = 0
H = [s1, s2, s3, s4, s5, s6, s7, s8, s9] 

Yes
?- P is 3/7, mpb([1,2],P,[s1,s2,s3],H).

P = 0.428571
H = [s1, s2, s3, s4, s5, s6, s7, s8, s9] 

Yes
?- P is 4/7, mpb([1,2],P,[s1,s2,s3],H).

P = 0.571429
H = [s1, s2, s3] 

Yes
 信念ポテンシャルの概念は,次に述べるp支配の概念と共に,不確実性の 高いゲーム状況での均衡選抜モデルを一般化するために,Morrisら によって導入されたものだが,合意定理 および投機定理の緩和問題に関わるロジックの解明にも貢献していることが 分かる.  信念ポテンシャルおよびp支配組を用いることにより,例えば以下に述べ るような興味深い命題が明らかにされた.あるエージェントの非自明な( つまりφやΩではない)自証的p信念の存在が,σ≦1−pと同値(定理3.1) であり,また一般にその上限は1/2である(定理3.2).よって自明でない 共通知識(=1共通信念)があれば信念ポテンシャルは0である.

 Prologプログラムcbp.plを使って最初の定理の例を示そう.

?- cpb(1,[s1,s2,s3],E).

No
?- make_a_prob(_,Q), P is 1-Q, cpb(P,[s1,s2,s3],E).

Q = 0.86
P = 0.14
E = [s1, s2, s3] 

Yes
?- bp(2,P,[s1,s2,s3]).

lmpb(1, 2, 0, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.01, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.02, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.03, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.04, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.05, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.06, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.07, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.08, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.09, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.1, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.11, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.12, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.13, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.14, [s1, s2, s3], all_states_reachable)
lmpb(1, 2, 0.15, [s1, s2, s3], [s1, s2, s3, s5, s6, s8, s9])
update_bp_data(2, 0.14, [s1, s2, s3])

P = 0.14 

Yes
?- bp(1,P,[s1,s2,s3]).

lmpb(1, 1, 0, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.01, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.02, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.03, [s1, s2, s3], all_states_reachable)
<...omitted...>
lmpb(1, 1, 0.39, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.4, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.41, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.42, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.43, [s1, s2, s3], [s1, s2, s3])
update_bp_data(1, 0.42, [s1, s2, s3])

P = 0.42 

Yes

?- bp(Q).

<--- omitted --->

Q = 0.42

Yes
 またバイナリーサーチを用いてより高速に精度の高いポテンシャルを 求めることができるプログラムbp1/3とbp1/1も作成した.

?- bp1(Q).

lmpb(1, 1, 0.25, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.25, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.375, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.25, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.375, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.25, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.375, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.40625, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.25, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.375, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.40625, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.421875, [s1, s2, s3], all_states_reachable)
lmpb(1, 1, 0.431875, [s1, s2, s3], [s1, s2, s3])
update_bp_data(1, 0.421875, [s1, s2, s3])

<--- omitted --->

update_bp_data(2, 0.421875, [s3, s6, s9])
bp(1, 0.421875, [s1, s2, s3])
bp(1, 0.421875, [s4, s5, s6])
bp(1, 0.421875, [s7, s8, s9])
bp(2, 0.421875, [s1, s4, s7])
bp(2, 0.421875, [s2, s5, s8])
bp(2, 0.421875, [s3, s6, s9])

Q = 0.421875 

Yes
 また,2人不完備情報ゲームにおけるp支配組がつぎのように定義される. p支配組となる行為ペア(x,y)は,相手(たとえば2)がどんな確率的 戦略を用いてもそれがp支配組の戦略(y)についてはp以上なら,自分の 行為(1のx)は最適反応である.

 p支配組の概念は,それによって非協力ゲームの代表的解概念を,いってみ れば,ファジィ化して,特色付ける ことができる.すなわち強ナッシュ均衡(1支配組),支配均衡(0支配組), リスク支配均衡(2人対称ゲームのときの1/2支配組),ナッシュ均衡 (p支配組,0≦p≦1)のようになる.

 彼らの主定理(定理5.1)は,次のようである.信念ポテンシャルσとす ると,どの状態でもσ支配組であるペアは,もし誰かがどこかの状態において 自分の行為が強支配行為であることを知っているならば, 全状態において唯一の合理化可能戦略組である (Morris, Rob, and Shin(1995), p.153).

 Morrisらの定理によれば,強ナッシュ均衡他,p>1/2を超える p支配組のナッシュ均衡はみな合理性に基づく完全予測が保証されない. そもそも,もし合理的な答えが唯一であり,完全予測が可能である ならば,均衡解以外の行動は直ちにそのプレイヤーの非合理性を意味す ることは直観的に正しいように思われる.またそれゆえこの種の論法は一定の 非決定性を前提にしなければならず,さもなくば嘘つき背理と同じく, 一意性(=完全予測)を強制することにより,その合理性を仮定する論 理に認識論的な矛盾をきたすのだろう.バックワードインダクションや それ以外の均衡洗練についても同じように.(すでに,何人かの研究者が 論文として発表しているように,万能チューリングマシン などを使ってこの種の非決定性をモデル化することができる.)

 つまり,実は,一見しておろかしい行動が,それはどこかにあほなやつが いるかも知れないとか,自分が本当はあほであると思われているかもしれない とかいった,高次の相互知識推論による疑いが,本当は合理的である プレイヤーを突き動かしている可能性もある---例えば分散したネットワーク 内のどこかに調子の悪くなった知的ユニットがいるかも知れないと推論でき, そのことを故障したユニットのもっと近くにいて,しかしそれに気づいていない 別のユニットに知らせたいが,周りのエージェントを騒がせたくないとか, 他のエージェントには盗聴されたくないので,直接メッセージを送る代わりに, 変なメッセージを発しているとか. またこれはある意味でAIにお いてフレーム問題として知られる 定理証明ロボットのインパス状態の相補的戯画になっている.

 いいかえれば,ほんとうの意味で,高次の相互推論が駆動されるのは, どこかでアノマリーが検出されて, なおかつ相互信頼を保てるかどうかを直接確認する代わりに,何らかの派生的な 情報収集活動を行わなければならなくなった(あるいは他の誰かに情報活動 させる必要が生じている)状況である.その場合, 通常バックワードインダクションで仮定される結果主義の推論とは異なり, 直観的には,ゲームの途中の手番においては,各プレイヤーが先行する プレイヒストリーを振り返りつつ,相手プレイヤーのプレイの意図つまり戦略 を解釈し,その解釈の下で将来に向けての戦略を考え直す機会が生じると考え るのが自然だろう.つまりゲームプレイヤーの帰納学習をモデル化する必要 が生じる.

 先立つ均衡洗練の研究は,合理性の仮定や共通知識の仮定の固執していたため, 戦略学習モデルとしては必ずしも満足できるものではなかった.ちなみに, 近年の研究ではこれらの仮定の一部ないし全部をいったん放棄して,限界合理 的なゲームプレイヤーによる「学習」の問題を,その前面に押し出しているも のが増えている. 進化論的ゲームがその代表だが,その多くはゲームプレイヤーの知能の進化を 文字通りモデル化するものではなく,実際のゲームプレイの反復を通じた戦略 学習やその予測方法を思いつく認知過程のモデルを意図したものである.

Prologによるシミュレーション(7):p支配均衡

 実際に,筆者のプログラムcpb.plを使って,Morrisらのゲーム例題のp支配 均衡をテストしてみた.ただしp値は0.01刻み, また混合確率(信念)は0.2刻みでの近似計算である.

 このゲームmsには一つの状態s1(ゆえに完備情報) しかなく,対角線上に3つの強ナッシュ均衡 [t,l],[m,c],[d,r] があり, これらはリスク支配にかんしてサイクルをなしている.しかし3つの均衡を p支配で比べると(もちろんいずれも1/2以上であるが)そのp値の下限 が最小となる[t,l]だけを選ぶようにp値を動かせば,他の2つのp支配均衡 を消去できる.

% a game in Monderer and Samet(1989)
% -------------------------------------------------  %
state_of_game(ms,s1).
game(ms(s1),
   form(standard), 
   players([1,2]), 
   acts([(1,[t,m,d]), (2,[l,c,r])])).
game(ms(s1),payoff,[t,l],[7,7]).
game(ms(s1),payoff,[t,c],[0,0]).
game(ms(s1),payoff,[t,r],[0,0]).
game(ms(s1),payoff,[m,l],[0,0]).
game(ms(s1),payoff,[m,c],[2,2]).
game(ms(s1),payoff,[m,r],[7,0]).
game(ms(s1),payoff,[d,l],[0,0]).
game(ms(s1),payoff,[d,c],[0,7]).
game(ms(s1),payoff,[d,r],[8,8]).


?- p_dominant(G,P,N,S,Q).

p_dom?, s(s1), p(0), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0.8, 0]], [1.44, 1.44]]))
p_dom?, s(s1), p(0.01), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0.8, 0]], [1.44, 1.44]]))

<---omitted--->

p_dom?, s(s1), p(0.4), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
  nbr(defeated_by(1, [[[1, 0, 0], [0.4, 0.2, 0.4]], [2.8, 2.8]], [[[0.8, 0.2, 0], [0.4, 0.2, 0.4]], [2.88, 2.32]]))
p_dom?, s(s1), p(0.41), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
p_dom?, s(s1), p(0.41), i(2), a([t, l]), u([7, 7]), a_ind([1, 1])

G = ms(s1)
P = 0.41
N = [1, 2]
S = [t, l]
Q = [7, 7] 

Yes
?- p_dominant(G,0.5,N,S,Q).

p_dom?, s(s1), p(0.5), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
p_dom?, s(s1), p(0.5), i(2), a([t, l]), u([7, 7]), a_ind([1, 1])

G = ms(s1)
N = [1, 2]
S = [t, l]
Q = [7, 7] ;

p_dom?, s(s1), p(0.5), i(1), a([t, c]), u([0, 0]), a_ind([1, 2])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0.8, 0]], [1.44, 1.44]]))
p_dom?, s(s1), p(0.5), i(1), a([t, r]), u([0, 0]), a_ind([1, 3])
  nbr(defeated_by(1, [[[1, 0, 0], [0.4, 0, 0.6]], [2.8, 2.8]], [[[0.8, 0.2, 0], [0.4, 0, 0.6]], [3.08, 2.24]]))
p_dom?, s(s1), p(0.5), i(1), a([m, l]), u([0, 0]), a_ind([2, 1])
  nbr(defeated_by(1, [[[0, 1, 0], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.5), i(1), a([m, c]), u([2, 2]), a_ind([2, 2])
  nbr(defeated_by(1, [[[0, 1, 0], [0.4, 0.6, 0]], [1.2, 1.2]], [[[1, 0, 0], [0.4, 0.6, 0]], [2.8, 2.8]]))
p_dom?, s(s1), p(0.5), i(1), a([m, r]), u([7, 0]), a_ind([2, 3])
  nbr(defeated_by(1, [[[0, 1, 0], [0.4, 0, 0.6]], [4.2, 0]], [[[0, 0.8, 0.2], [0.4, 0, 0.6]], [4.32, 0.96]]))
p_dom?, s(s1), p(0.5), i(1), a([d, l]), u([0, 0]), a_ind([3, 1])
  nbr(defeated_by(1, [[[0, 0, 1], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.5), i(1), a([d, c]), u([0, 7]), a_ind([3, 2])
  nbr(defeated_by(1, [[[0, 0, 1], [0.4, 0.6, 0]], [0, 4.2]], [[[1, 0, 0], [0.4, 0.6, 0]], [2.8, 2.8]]))
p_dom?, s(s1), p(0.5), i(1), a([d, r]), u([8, 8]), a_ind([3, 3])
  nbr(defeated_by(1, [[[0, 0, 1], [0, 0.4, 0.6]], [4.8, 7.6]], [[[0, 1, 0], [0, 0.4, 0.6]], [5, 0.8]]))

No
?- p_dominant(G,0.6,N,S,Q).

p_dom?, s(s1), p(0.6), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
p_dom?, s(s1), p(0.6), i(2), a([t, l]), u([7, 7]), a_ind([1, 1])

G = ms(s1)
N = [1, 2]
S = [t, l]
Q = [7, 7] ;

p_dom?, s(s1), p(0.6), i(1), a([t, c]), u([0, 0]), a_ind([1, 2])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0.8, 0]], [1.44, 1.44]]))
p_dom?, s(s1), p(0.6), i(1), a([t, r]), u([0, 0]), a_ind([1, 3])
  nbr(defeated_by(1, [[[1, 0, 0], [0.4, 0, 0.6]], [2.8, 2.8]], [[[0.8, 0.2, 0], [0.4, 0, 0.6]], [3.08, 2.24]]))
p_dom?, s(s1), p(0.6), i(1), a([m, l]), u([0, 0]), a_ind([2, 1])
  nbr(defeated_by(1, [[[0, 1, 0], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.6), i(1), a([m, c]), u([2, 2]), a_ind([2, 2])
  nbr(defeated_by(1, [[[0, 1, 0], [0.4, 0.6, 0]], [1.2, 1.2]], [[[1, 0, 0], [0.4, 0.6, 0]], [2.8, 2.8]]))
p_dom?, s(s1), p(0.6), i(1), a([m, r]), u([7, 0]), a_ind([2, 3])
  nbr(defeated_by(1, [[[0, 1, 0], [0.4, 0, 0.6]], [4.2, 0]], [[[0, 0.8, 0.2], [0.4, 0, 0.6]], [4.32, 0.96]]))
p_dom?, s(s1), p(0.6), i(1), a([d, l]), u([0, 0]), a_ind([3, 1])
  nbr(defeated_by(1, [[[0, 0, 1], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.6), i(1), a([d, c]), u([0, 7]), a_ind([3, 2])
  nbr(defeated_by(1, [[[0, 0, 1], [0.4, 0.6, 0]], [0, 4.2]], [[[1, 0, 0], [0.4, 0.6, 0]], [2.8, 2.8]]))
p_dom?, s(s1), p(0.6), i(1), a([d, r]), u([8, 8]), a_ind([3, 3])
  nbr(defeated_by(1, [[[0, 0, 1], [0, 0.4, 0.6]], [4.8, 7.6]], [[[0, 1, 0], [0, 0.4, 0.6]], [5, 0.8]]))

No
?- p_dominant(G,0.7,N,S,Q).

p_dom?, s(s1), p(0.7), i(1), a([t, l]), u([7, 7]), a_ind([1, 1])
p_dom?, s(s1), p(0.7), i(2), a([t, l]), u([7, 7]), a_ind([1, 1])

G = ms(s1)
N = [1, 2]
S = [t, l]
Q = [7, 7] ;

p_dom?, s(s1), p(0.7), i(1), a([t, c]), u([0, 0]), a_ind([1, 2])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0.8, 0]], [1.44, 1.44]]))
p_dom?, s(s1), p(0.7), i(1), a([t, r]), u([0, 0]), a_ind([1, 3])
  nbr(defeated_by(1, [[[1, 0, 0], [0.2, 0, 0.8]], [1.4, 1.4]], [[[0.8, 0.2, 0], [0.2, 0, 0.8]], [2.24, 1.12]]))
p_dom?, s(s1), p(0.7), i(1), a([m, l]), u([0, 0]), a_ind([2, 1])
  nbr(defeated_by(1, [[[0, 1, 0], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.7), i(1), a([m, c]), u([2, 2]), a_ind([2, 2])
p_dom?, s(s1), p(0.7), i(2), a([m, c]), u([2, 2]), a_ind([2, 2])

G = ms(s1)
N = [1, 2]
S = [m, c]
Q = [2, 2] ;

p_dom?, s(s1), p(0.7), i(1), a([m, r]), u([7, 0]), a_ind([2, 3])
  nbr(defeated_by(1, [[[0, 1, 0], [0.2, 0, 0.8]], [5.6, 0]], [[[0, 0.8, 0.2], [0.2, 0, 0.8]], [5.76, 1.28]]))
p_dom?, s(s1), p(0.7), i(1), a([d, l]), u([0, 0]), a_ind([3, 1])
  nbr(defeated_by(1, [[[0, 0, 1], [1, 0, 0]], [0, 0]], [[[1, 0, 0], [1, 0, 0]], [7, 7]]))
p_dom?, s(s1), p(0.7), i(1), a([d, c]), u([0, 7]), a_ind([3, 2])
  nbr(defeated_by(1, [[[0, 0, 1], [0.2, 0.8, 0]], [0, 5.6]], [[[1, 0, 0], [0.2, 0.8, 0]], [1.4, 1.4]]))
p_dom?, s(s1), p(0.7), i(1), a([d, r]), u([8, 8]), a_ind([3, 3])
p_dom?, s(s1), p(0.7), i(2), a([d, r]), u([8, 8]), a_ind([3, 3])

G = ms(s1)
N = [1, 2]
S = [d, r]
Q = [8, 8] ;

No
?- nash(G,N,S,Q).

G = ms(s1)
N = [1, 2]
S = [t, l]
Q = [7, 7] ;

G = ms(s1)
N = [1, 2]
S = [m, c]
Q = [2, 2] ;

G = ms(s1)
N = [1, 2]
S = [d, r]
Q = [8, 8] ;

G = mixed(ms(s1))
N = [1, 2]
S = [[1, 0, 0], [1, 0, 0]]
Q = [7, 7] 

Yes


情報構造モデルと会話:認知科学的な関心

 最後に,筆者の関心事である認知科学の観点から,共通知識のモデル分析を 論じることの意義について若干述べてみたい.すでにゲームプレイヤーの共通 知識の研究を紹介することを通じて,意思決定者のメンタルモデル,とくに社 会的相互認識とその形式化における問題点と意義をある程度述べることができ たと思われるが,ここではやや散文的になるが,情報構造モデルと関連する学 際的な話題に言及してみたい.

 本節の以降の部分では,限界合理性とそれに対する処方としての「とりきめ」 (あるいは「ならわし」),認知モデルとしての情報構造モデルの適切性, 戦略的意図推論と信頼の関係の順に述べ,最後に創造的思考について触れる.

とりきめ(convention)

 計算論的アプローチをとる伝統的な認知科学研究は,明示的に, あるいは 非明示的に,合理的推論に要する計算量の問題に注目した. それによって現実の人間は計算量の問題を回避しえているから,その メカニ ズムは「心的表象」の概念を中心に説明されるだろうという 予測 を,認知科学者たちは打ち出した(Marvin Minskyによる知識表象の「枠組み」 理論に代表される).

 またそれによって再構築される常識的推論 のメカニズムは,問題表現や解 の提示方法に依存する現実の人間の, それゆえ確率論や合理 的選択の規範理論に対する違反が顕著である アノマリーを探しあてたり, 後知恵をつけることに役立ったのではないかと思われる.行動経済学 ないし経済心理学の成果として近年よく紹介されるようになった, KahnemanとTverskyのプロスペクト理論は,現実の人間のリスク判断や リスク選好が,問題表現の肯定的ないし否定的な雰囲気や,同じ金額でも賞金(利得) と支払(損失)のいずれであるかに依存して,系統的に変化する といったそれ以前からも知られていた現象を,あらためてきちんと 心理学的実験を通じて確かめ,これを理論的に整理したものだ (用語集の意思決定アノマリー参照).

 奇しくも,彼らによって,そうした判断と 意思決定における認知情報処理への依存は,枠組み効果と呼ばれた. (もっとももし意識したのだとすれば,G. Shaferの信念関数や, R. Jeffreyの批准可能性概念にかかわる用語,「識別の枠組み」 ---統計科学とAIの境界にある不確実性推論・証拠推論システム の研究から拝借している可能性がおそらく高かろう.)

 傍観的な人々をよそに,規範理論からの乖離を指摘し,批判すること にとどまらず,Kahneman and Tverskyのプロスペクト理論を始めとして, とくに不確実性下の意思決定研究やゲームの理論において,代替理論の 提案と心理学的実験を通じた検証のための,熱心な研究が今日まで続け られている.  合理的推論に要する計算量要求に対して, 実際に情報処理を行うマシンの能力の限界(いわゆる限界合理性)に 着目したものもあれば,IF-THEN文や条件付確率および期待効用のような 判断と意思決定のビルディングブロックですでに生じるアノマリーに 対峙するものもある.

 1980年代以降にゲーム理論で研究されたものには,いずれのタイプの ものもあった.とくにゲームプレイヤーの合理性を,意思決定論に 遡って基礎付けするために,後者のタイプの代替モデル,つまり 非期待効用モデルと,前者のタイプ,つまり共通知識の仮定をアルゴ リズム的に明示化したものとが組み合わされて,議論されていたことは, これまで説明してきた通りである.

 また従来,心理学との境界領域と考えられた研究領域が,今日経済学では 行動経済学,あるいは実験経済学と呼ばれるようになった.KahnemanとSmith の2人が同時に2002年ノーベル経済学賞を受けたということも,そうした 変化の一つの顕れだろう.

 一方,「意欲」や「自己意識」のシステムの解明にチャレンジする最近 の脳科学は別として,伝統的に認知科学者たちは,情報処理アプローチを 人間の心のはたらきの解明に積極的に用いた.これにはTverskyとKahneman による意思決定研究と関わる部分も少なくない.彼ら認知心理学者はとくに 帰納推論の問題をとっかかりに,規範理論の改訂に取り組んできた.

 例えば条件文で述べられたルールの理解(つまりWasonの4枚カード問題) において,実際の使用状況に固有の記憶や技能,あるいは 広い状況で使い 回せる,比較的少数のルール (Tversky らの代表性,利用可能性,係留,シミレューションの各 ヒューリスティクスはよく知られる), あるいは社会的な慣習(とりきめ,あるいはならわし)や契約概念ないし 公平性概念に結び つける,特殊だが日常生活ではある程度一般性のある 判断基準といった ものだった.

 少し冷静に距離を置いて,これらのヒューリスティクスの意味を考える と,それらがいかにして人間知能によって獲得されたかということは 捨象しても,いずれも何らかの意味で,現実に生活の中で繰り返し生じる問題を 手っ取り早くかつ大過なく処理するという意味での合理性の処方になって いることがポイントだと考えられていた.

 この合理性の処方という規範的スタンス自体は,経済科学や経営科学な いし経営工学の中に,基本思想としてもとより存在しているが,しかし 限界合理性の研究がそうであったように,物理学や純粋数学に近づこうと していたずらに専門度を高め,現実のニーズとかみ合わないのではないか という批判が,その研究共同体の内部にもないわけではない.

 また最近の 実験経済学の動向として,より積極的に,実験でその有効性が確認 された規範理論を,現実の経済取引制度に処方しようという動きがある. 入札や市場取引のルールといった制度設計が今のところの目標の ようである.京都議定書のような国際的なとりきめが,有効に その機能を発揮するか否かは,この分野の研究テーマの一つにあげら れている.

 経営学分野では伝統的に交渉(negotiation or bargaining) や企業戦略分野にゲーム理論や合理的選択の適用と心理学的実験研究 がなされてきたが,Burandenburgerらが 著作にまとめているように,ゲームのルール(メカニズム)を 設定するメタレベルのゲームにも手が届くだろう

 前に述べたように,とりきめの成立は,もともと共通知識の定式化を, David Lewisが論じた文脈であったわけだが,ゲーム論的設定の下での 自発的な協力関係の形成維持と密接にかかわる.

 つまりある種の理想化された市民社会の状況を想定するとき, 自発的にプライベートセクターでできるものを,なぜ増税への反発を賭して 制度化ないし公開する必要があるのかという,素朴な疑問・反論 に対して,私たちはすでにある戯画をもって回答を得ている(帽子パズル におけるすでにしっている事実を共通知識にするアナウンスの役割.これ は数人の社会に制限されない.実際,明らかに不可能な状態についての アナウンスの役割は,子供の人数nについての数学的帰納法による証明 において,n+1次以 上の証明列からの結論とみなせることに注意しよう.)

 また帽子パズルにおいて,大人のアナウンスは,共通知識をその状況で 自明に成立させるということを暗に含んでいた.これは,すでに 述べたように相互知識オペレーターの不動点として,「状況」が 成立することとしてモデル化される(Fagin et al., 1995).またこれは 言語行為の哲学で指摘されていた「遂行文」のはたらきに通じると思わ れる.

 またもう少し蛇足を伸ばしてみると,法とはそのよう な現実の社会と相互作用しながら成立するという意味においての,言語の 社会的−認識的な機能を制度化したものともいえるかもしれない.

 ちなみにバンヴェニストはオースティンの遂行文と確認文についての論文 に言及しながら,遂行文のこうした自己指向的な性質に注目している. そしてLewis自身がオースティンの遂行文の問題を論じている.もう一つ 言語の哲学で重要な仕事は,共有知識の観点から,Grice-Strawson の「話者の意味」の分析を批判したSchifferの"Meaning"である. 「話者の意味」や共有知識をめぐる言語研究(Simith^2(1982/97) の共有知識というタイトルの論文集は現在絶版)について またその認知科学におけるバージョンは,共同意図の研究とそれを 機械学習技術と結びつけてユーザーモデリングやオフィスデザインに 応用する一連の研究だろうが,これらは別の機会に勉強しなおすこと にしよう.なおClark and Marshall(1981)は後者の文脈でよく参照さ れている.

 このように社会的な「とりきめ」---あるいは「ならわし」でもいい だろう.いずれも"convention"の意味に合う.ただし後者はいつだれ によってとりきめられたかが不明ないし不問である.進化ゲーム理論 応用の文脈でとりあげられるときの,"convention"の用法は明らかに 後者だ.---の問題は,本来,意識的に せよ,無意識的にせよ,必ずしも合理的にふるまえない私たち人間の 限界のある合理性と,関連している.それが私たちの合理性の限界を補 うものとして受け入れられたメカニズムだという予想は,十分直観的に 裏付けられるものであると思われる.

情報構造は認知モデルとして適切か?

 Aumann以降にゲーム理論家によって試みられてきたように,確率論的 アプローチによる情報構造(あるいはそれを一般化した計算的デバイスや 情報科学者による様相論理学)にもとづけば, エージェントが他者の心的過程を内的にシミュレーション(すなわち推理) することによって生じる"iterative knowledge"の生成や,それを更新しながら 進められるコミュニケーションプロセスのシミュレーションを,ともに明示的 に表現できる.このため認知科学研究の基礎にかかわる方法論としても興味ある ものといえるかもしれない.

 パーティションは現実の世界の状態に依存して選択されるが,それは 現実の状態を含む状態空間の部分集合である.したがって前にも述べたように 「誤った情報」 の表現は,確率論の法則に矛盾しない範囲での限定されたものになる.(※1)

 またこの情報構造の下では, 正しい推論はつねに情報量を減らす(すなわちエントロピーを増す) 方向にしか進まない.すなわちエージェントの論理的に正しい推論は, 現在のパーティション を包含するよりきめの粗いパーティションの作成である.複数エージェント状 況では,共通知識は個人のもつ知識の細かな差異をすべて消去したもの になる.

 確率法則においては,事象X⊇Yのとき集合和X∪Yに よって得られる事象の確率が変わらない,いいかえれば情報量が同 じであることと類比される.また論理的推論における類似物は, 「AならばCである.」が正しければ「AまたはBならばCである.」 というのも正しい命題であるということである.こうした「情報」 概念ないしその数理モデルには,適切な焦点というべきものがない. あるいは適切性(relevance)ないしメタ情報(meta-information) についての考慮が欠けているといえるかもしれない.

 例えば情報構造モデルについて,それ自体について分析者が持って いるような知識を,エージェントが持っていないという観点から, いくつかの批判的な研究がある (Kaneko, 1987; Gilboa, 1998).

 パーティション情報構造は,確率論および論理学に矛盾しないが, しかし上記の取引の例題や単純なパズル問題(有名な帽子パズ ルや封筒交換問題)で正解を計算することの困難さの直観からして, 認知的デバイスとして,人間の常識的認知にそのまま 使えるものではなさそうだ.

 もっとも,日常の認識を扱えないというのは,規範的合理性を備えた 理想的エージェントたちの行動を主題に論じてきたゲーム理論において は,それはしごくとうぜんのことで,何ら自分たちの理論体系の限界を 示すものではないと彼らが考えてもおかしくはなさそうでもある. しかしゲーム理論家自身が迂曲な方法でこの限界を認めている.(※2)

 しかし,その反面,以下に述べる理由で,情報構造 モデルは,論理学的推論あるいは機械的な計算的モデルと,私たちの 常識推論との 中間に位置する,適切な情報概念と認知表象に基づく枠組みを模索する ためのヒントを与えているように思われる.

 たとえば複雑な内容をどうしても理解できないとき,聞くまでもなくすでに 知っていたおっざっぱな説明に納得してみたり,救われた気分になったり しがちである.あるいは限られたコミュニケーション手間の制約の範囲で, 全会一致を実現するために,だれでも納得できそうな大ざっぱな意見を 合意の落とし所として予め用意しておくことも,一つの民主主義の運営 ルールとして現実の社会で用いられているかもしれない. それゆえ互いに 尊敬できるエキスパートたちの間での,不断の 意見交換に基づく不合意の消去(Aumann,1976)とはあながち矛盾していない.

 すなわち,情報の損失が推論の方向を決めるという,いってみれば 「ポテンシャル原理」がその共通項になっている.いいかえれば,「発見」, 「驚き」,「発明」,「創造」といった,新規な認識とそれに随伴する 特有の感情状態を生み出す活動は,「投機」,「出し抜き」,「裏切り」 といった負の社会的所産と同様, 合理的なエージェントたちの共通舞台からは消去され,あたかも「ないもの」 ,「あってはならないもの」として扱われる.(※3)

------
※1 可能性対応の各要素 がつねに真の状態を含むこと(nondelusion)および自分の知っていることは 知っていること,つまりs∈P(ω)→P(s)⊆P(ω)の2条件だけで エージェントの論理的全知を特徴付ける.非パーティション情報構造モデルは, 無知の知の公理を捨てるので曖昧な信念を記述できる.しかし,「気づき」 つまり無意識から意識への知識状態の変化(信念改訂)を扱えないといわれる (Dekel, Lipman and Rustichini, 1998; Samet, 1996).

また共通知識にこだわるかぎり,古くから知られるゲチエ問題に代表される ような誤表象の問題,あるいは もっと身近でありふれた状況,すなわち日常の理解やコミュニケーション につきものである「誤解」を正しくモデル化できないのではないだろうか? これらは合意定理から帰結される.Geanakoplos らの論文タイトルを借りれば,"We can't agree to disagree forever." ということになる.

※2 実際,通常用いられているプレイヤーの「タイプ」を 導入したHarsanyiによる不完備ゲーム理論の定式化において, プレイヤーがゲームの構造 自体を正しく認識していない可能性を考えるためには, その共通知識の仮定を緩和するために,さらに 高次の共通知識を仮定するといった不自然な技術が要求される. この無限遡及による構成は理論的には可能だが,もし計算の打ち切り がありうるとすれば,もはやオリジナルのゲームと連続性のある 分析結果は出せなくなる(Rubinstein, 1989).

※3 あってはならないもの,あるいはありそうもないこと, つまり確率0の事象(null events)Hの観測後,p(・|H)=p(・) となる自明性が成り立つ場合を考えてみよう.すなわち真の状態 を含むパーティション(ないしσフィールド)Hが観測されて, そのパーティション自体の事前確率が0であったとき,入手した 情報としてはHであることを知っていながら,しかしΩ全体が 確率1だと信じているような認知システムの状態を,この種の 自明性は意味している.

 したがってこの種の情報と信念のアンバランスによって,意外な 情報を受信したエージェントが,自分自身にとって「都合の悪いこ とは忘れる」あるいは失念する認知モデルを記述できるかも知れな い.例えば,私たちが日常経験することのあるように, あまりのショックで気を失うとか,そうでないまでも我を失う, あるいは気が動転してたり記憶が途切れるといった, 生理的ないし心理学的な現象と,直観的には合致する. 思いがけず意外なことに遭遇したり,あるいは実現すると 非常に都合の悪いことになると分かっていることが確実に なったとき,などの諸ケースが上の事態に相当するだろう.

 一方,規範理論ではこれを防ぐために条件付確率に対して 次の条件を仮定する.すなわち, 確率0の事象Hを観測後,事象Hに対して事後確率1を与え るという条件 (Properness of conditional probability),ないし, それでもなお Ω−Hに正の事後確率を付与することができるとする条件 (Regularity of conditional probability)である (Brandenburger and Dekel, 1987).共通知識のモデルでは 同じ要因によって,パーティションのミートが確率0事象 だが,誰もこれを共通知識として信じていないという事態 が発生しうる.Brandenburger and Dekel (1987)は パーティション情報構造と共通知識の定式化において, Ωとφを追加してσフィールドを完備化することによって この種のアノマリーを防ぐことができることを示した.

----

戦略的意図推論と信頼

 見方を社会の運営ルール,ないしプロトコールに転じて みれば,これらも一種の禁忌則としては経験的に私たちが知っているもの の類似物だろう.とくに皆既日食のときのプロミネンスのようにそうした現象が 立ち現れるのが「会話」の領域である.

 すなわち,Grice(1975)が「話者の意図」あるいは 「会話の含意」に注目したように,それは ちょうど論理学や合理的選択といった規範的諸モデルが,私たちの直観的理解と 抵触し,不具合を引き起こすときに,その不具合を修復し,信頼を回復する ための「推理」を誘導する. この種のアノマリーをアンカーとした修復推論の例は,会話の含意の他, 日本語の助詞ハとガの用法や,社会学の会話分析ないしエスノメソド ロジー研究に見出せる.またそれは従来,それぞれの分野で,とくに 明快な定義のなされないまま「新しい情報」とか「コミットメント」と 称されてきたことに関係するだろう.

 上で言う信頼の概念が,コミットメントの概念の類似物であること を示すために,分かりやすい例を一つあげておこう.何年か前に野球放送 である解説者が言っていたことだが,「○○監督は△△選手のことを, 信用していないが,(エースとして)信頼している.」 この信頼の概念は,信頼性工学ないし信頼性理論でいう「信頼」概念 とは,かなり正確を異にするものである.なおこれらは機械の故障時 間間隔や修理・回復までの時間的統計など,確率ないし確率過程モデル を直接的応用した機械システムやソフトウェアの性能を評価手法である.

 客観的な統計や その選手・社員の潜在的能力にかかわらず,試合の重要な場面で 結果を出せなかった中心メンバーに対して,チームの他のメンバー は好ましい印象を持たちにくいのは心理として避けられない. しかし,監督者・指導者がそれを明言して「あいつはだめだ.」などと言う のははばかられる.なぜか.それが共通知識になってしまうからで ある.けれども,明示的ではないにせよ,その選手を重要な場面で なお使い続けることなどによって,監督者・指導者がその人への 信頼を態度表明することによって,その人自身が奮起すると共に, チーム全体の士気の低下を防ぐという意味がある.

 この例から敷衍されることは,野球に限らず,企業経営や 学校教育を含む,さまざまなチーム的状況でのリーダーシップや モラール(士気)の問題に通じるだろう.つまり コミットメントとは,大きな損失のリスクを覚悟した上での, 不確実性に賭ける行為またはその行為の表明である.ただし, その賭けの対象となる不確実性は,たんなる冒険やギャンブルの ことではなく,社会性を帯びたものである.すなわち他者の能力や 行動,とくに直接観察できない才能や努力にかんするそれである.

 もし,上記の悪い結果が, 実力ではなく,偶然的要因に起因するとすれば,自然と統計的に 平均的な成績に回帰するだろう.しかし,コミットメントをした からには,それ以上の効果を期待しているわけである.しかし, いつでも上々の結果となるわけではないから,これはリスクを 覚悟した選択であることはまちがいない.力の劣った者を使い続 ければ,厳しさが足りない,競争原理に反する,あるいはえこひ いきだということになり,かえって士気が低下し,その人自身も 甘えが生じて自ら立て直す努力を怠る,そして最終的には監督者・ 指導者自身が更迭されるといったマイナス効果も十分考えられる が,それは十分小さい可能性だと評価されていなければならない はずだろう.そう考えれば,むしろ「泣いて馬謖を斬る」方が, チーム全体の信頼と士気を維持する目的に照らして,望ましい かもしれない.

 いずれの場合にも,そのことは皆が知っている.だからこそ, 心理的ゲームを通じたこの種のコミットメントの効果が,理論上 も,期待しうるわけである.

 ゲーム理論において,この種の推論は,「シグナリング」あるい は「均衡洗練」と呼ばれていることは,すでに紹介してきた.一方,現実の社 会的コミュニケーションにおいては,さらに次のような経験的事実を 付け加えることができる.すなわち, 会話の当事者によって意識されたアノマリーの修復(Repair)のために 必要な推論の深さは, コミュニケーション当事者間の関心あるいは信頼の程度によって, その許容度(Torelance)が定まっていると考えることができそうだ. またこの意味において,成員相互のメンタルモデルへの推論と信頼, いいかえれば知能の意欲的側面は,自己言及の構造を持つ.

 例えば,コンピューターを教え ているある同僚の車は,大学の駐車場の1台あたりに決められた車 幅間隔を示す白いマーカーを横切るように,2台分のスペースを占 有して停められていることが多いことに,別の同僚,ちなみに彼は ミクロ経済学的合理性に奉る研究者だ,が気が付いたが,前者について の日ごろの几帳面な性格を知る後者は,何か分からないがきっと合 理的意図があるはずと思って本人に聞いたそうである.

 ところで,これがもしクルーゾー警部,Mr.ビーン,バカボンのパパ, あるいはそこほかのそそっかしい人物の車だったとしたら,本人に 尋ねるまでもなく,きちんと 停めることができなかったのであり,かつまたそれに至る過程で, 彼なりの真摯の努力と思考を重ねたにもかかわらず,きっと周りの 車両や設備を破壊したにちがいないと結論付けされていた であろう.

 こうして,同じようにアノマラスな行動をしても,合理的意図を 推論してもらえる人と,そうでない人がいることは,経験的に明ら かであるように思われる.

 ちなみに筆者が通勤する太田市は,赤城山を背後に強風で有名な土地 柄で知られる.たとえクルーゾーとは似ても似つかぬ慎重で 知的な人間であっても,接近した感覚で駐車すると,思わぬ突風にあ おられて自己をコントロールできなくなるリスクを避けえなくなる ことがある.実際,筆者の車は,そうした刹那的に自己制御不能に 陥った同僚によるそのような被害に遭った.したがって,パズルの 答えは,2車線占有のアノマリーの意図は,その事態を未然に防ぐための プリコミットメントであったというわけだ.

創造的思考

 アノマリーの修復推論における「信頼」の概念は,conventionalな 市場原理のそれと対照的でもある.すなわち競争に よって,劣ったユニットを排除・淘汰することにより,システム全体 の信頼性を保とうとするのではなく,回復可能な限り,修復するのである. アノマリーをたんにconventionalに,故障・異常・非合理性・劣った 知能と見なすのではなく,そこに,イノベーションの可能性が,潜んで いることの兆候として,その本当の意味を積極的に解釈する.これを 生態学的な,あるいはいずれにせよ誤用・乱用といわれることを覚悟で, 解釈学的な,信頼とでも呼ぼう.

 またこれは「対象問題に適合する知能」の遺伝子は,適合度によって のみ選抜されないことを含意する.例えば,交叉によって,ともに優れ ているがかなり性質の異なる遺伝子を受け継いだ子供は,それが受け継いだ 各遺伝子の対立を調整する知能を学習するまでは,その能力を開花する のは難しいはずである.単純な工学的GAでは,それは致死遺伝子 として集団から排除されるだけである.

 そう, 少し欲を出せば創造的思考と合意のためのプロセスの間のアナロジー にも手が届くだろう.次のような認知状況を考えてみよう.情報は持っているが, 知識表現がうまくいかず,使おうとしても使えない.しかし とくに目新しいことを教わったわけではないのに,ふとしたきっかけ,例えば おしゃべりとかの最中に,それが利用可能な知識に変わる.

 創造的思考にはそのようなSerendipityの傾向があり,Self-deceptionの論理 とコインの両面をなしている.瞬間的にひらめいたアイディアが, すぐに語りえない何かに変わり,十年くらいたってようやく言葉になって出てく ることもある.そのとき,それが意味するものは新しい情報なのだろうか?  それとも新しい情報が注がれた古い皮袋なのか? あるいはアルコールの 過剰摂取なのか? あるいは...

postscript

 信頼を,たんじゅんに客観的な「確率」に置き換えてしまうことは できないだろう.なぜならば,信頼することによって,相手の側の確率が変わる と考えているからである.

 とはいえ,上記の人間的・社会的な信頼の現象が「確率モデル」によって 表されえないというわけではない.むしろ,ゲーム理論でいう混合戦略 や主観的確率理論(ベイズ意思決定)に共通する「条件付確率」の 解釈としては矛盾しない.しかし,おそらくそれだけでは信頼のメカニズム を説明したことにはなるまい.

 ところで,「君を信頼している云々」と言って しまうのは,現実社会ではむしろ最終手段に属するのであろう. 直接のメッセージの代わりに,社会組織の内部では,「信頼されていると信じさせる」,あるいは反対に 「そろそろあなたの真剣さを疑いかけているぞ」と解釈できるような, 信任・脅しの「微妙なシグナル」が,断続的に送り続けられている, というのが,経験的な事実に近いのではないだろうか.

 少なくとも,そのように受け止めなければいけないのだと思わざるを えないことは,個人的にはしばしばあることだ.また,かつて パソコン通信で始まり,電子メール &携帯文化の一部に定着した顔文字^_^;(冷や汗)の用法には, そうしたコミュニケーションの情動的・交話的なはたらきの残滓 が,それ自体,アノマラスな存在としてやりとりされている. 不完全にしか存在しえない信頼が,自らを確証したい自己言及的な 衝動を伝えているからである.

 つまり,上で「最終手段」と書いたのは,信頼に基づくオンライン システムである社会においては,その個人間の関係,会社組織との関係, あるいは政府との関係などさまざまな相互作用の局面で,その信頼を 危機にさらす可能性があるアノマリーである,「ブレークダウン」が 日夜生じることと,いわばコインの表裏をなしている. さまざまな小さなシステム障害に相当する それらのブレークダウンは,それが最終的破局に陥る前に修復され, 表面化しにくいか,あるいは表面化された場合も,修復の努力が正常に 行われていることを示すメッセージが送られ続けていることが, 信頼ベースのシステムの特色でもある.

 ぎゃくに,ブレークダウンが 発生しないシステムは,ここで論じているような信頼の メカニズムが発動される余地は少ないように思われる.にもかかわらず, ブレークダウンの少なさは,信頼のパフォーマンスメジャーではなく, むしろシステムが使われていない,あるいはどこかで情報チャネルが 意図的・非意図的に遮断され,本来流れるべき情報が滞っている 閉鎖的システムに陥っていることの証左かもしれない.そのように 解釈できるだけでなく,そう解釈すべきなのである.

 すくなくとも,現実の複雑システム は,多くのオブジェクト内の構造を遮蔽して見せないインターフェイス として設計されているか,あるいは階層構造が自然発生している. したがって,健全な信頼ベースシステムは,自身の不完全性について, 批判的懐疑を投げかけることをけして止めない. 組織論 やグループ意思決定支援の研究で,「へそまがり」(evil's advocator)を活用せよとよく言われるのは,そのためである. 一方, こわいのは,人が痛みを検知するセンサーを失ったときである. つまり不愉快なシグナルを発生させるそれを邪魔と感じることに 罪悪感を感じなくなることである.

 大規模な社会システム・情報システムの設計が,ブレークダウン を生じさせない,それを隠す方向に向かうことは,旧来の工学的な 意味で正しく,しかし社会工学的な意味では誤りである. その理由は,人はなぜ動かないシステムを作ってしまうのか, ということについて,前もって深く考えるきっかけを,奪っている からである.

 現実には,多くの場合,より深刻なブレークダウンに遭遇して はじめて,そのリスクの大きさに人々は気づく.そうなるまでは, 知っていたとしても関係者以外には分からなくて済んでいたものが, 露呈する.自発的な開示のむずかしさが, 危機管理の技術の正常な進歩を遅らせる.その費用は,しかし, 誰かが負担しなければならない.

 ところで,出版社,出版年不明のため文献には挙げておりませんが, はらたいらの「知的遊戯」とかいう本を読んだことがあります. (たしか)その一節に湖上のカモの群れを捕獲する技術が紹介されていた. 記憶は定かでないが,おおよそ,以下のような話だったと思う.

 夜こっそり湖岸でライターの火をカチカチしてすぐ隠すと,環状に 配列された最も外側のウィークなカモ(=危険センサー)がおどろ いて騒ぎ,仲間のリンチにあう.翌朝湖上に浮かんだ被害者を 捕獲する.これを環数−1夜繰り返すと,最後に仲間を失った ボスガモが世を儚みすべてのカモを捕り終える.むろん, 笑い話のネタとしてだが,囚人ジレンマ型の バックワードインダクションとして解釈できなくもないなと思った のでした.

 上記文献には他にもゲーム論っぽいネタがいくつかあったかと 記憶しますが,読んだのが定食屋でしたので,次回に続きを読もうと 思いつつ,筆者の引越しなどのため,再び店に足を運んだ 数年後には,すでに本はなく,いまだ書誌情報収集は 遂行できていません.

文献