flash movie
バトルゲームの離散時間動的数理モデリングによる秩序問題の解明

漆舘巧

秩序問題に関する研究背景

 秩序問題とは「どのようにそしてなぜ社会秩序が存在するのか」に関する問題である.代表的な秩序問題にはフリーライダー問題やホッブズ問題がある.

 秩序問題に関する研究には史実や実験を根拠にした研究と,数理モデリングによる解析を根拠にした研究が存在する.数理モデリングによる解析はさらにゲーム理論ベースの研究と人工社会シミュレーションベースの研究に大別される.

 ゲーム理論ベースの研究にはある問題が指摘されている.その問題はゲーム理論の強力な仮定である前向き合理性(または単に合理性)を人間の意思決定は満たしていないということである[2].現代ゲーム理論では前向き合理性を緩めるためのモデリングも行われているが,そのモデリングによって人間のどの機能をモデリングしているかを十分に説明できていない.

 一方,人工社会シミュレーションベースの研究では後ろ向き合理性と呼ばれる合理性のみを仮定した進化シミュレーションの研究が存在する.後ろ向き合理性とは過去に良かった選択や論理的思考がより多くの人に採用される原理のことである.この後ろ向き合理性は適応的アプローチや学習という名前で呼ばれることもある.そしてこの研究により秩序状態が生まれる原理を説明できる結果が示されている.しかし,この研究はシミュレーションによる結果を示したもので数理モデリングによる定性的な結果を出すには至っていない.

研究目的

 人工社会シミュレーションベースの研究の代表的なフレームワーク,バトルゲーム,を動的数理モデリングすることによってシミュレーションで得られた結果を裏付ける証明や数理的な構造の整理,新たな知見の発見を目的とする.

バトルゲームの概要

 バトルゲームはn人のエージェントが以下の4つの工程を繰り返し,状態が遷移していくシミュレーションである.1. 2人1組のエージェントがランダムに選ばれ,行為者・被行為者に分けられる.2. 行為者は被行為者に対して略奪行為を行うか行わないか(=状態)を決定する.3. 各エージェントは現在の各エージェントの略奪情報を用いて次のステップの行為を決定する(この決定の仕方を「戦略」という).4. 現ステップで最も利得が高かったエージェントの戦略を利得が低かったエージェントが模倣する.

 以上の繰り返しによりどんな戦略が進化的に安定な戦略となり,そのときの状態(=各エージェントの略奪行為の決定)はどうなるのかをシミュレーションするのがバトルゲームである.

 基本的な戦略は4つ存在する.基本的というのは,現ステップの情報の使い方が基本的という意味である.自然な思考として,現のステップにあるエージェントからどんな行為をされたかという情報を使って次ステップのそのエージェントへの行為を決めることをすることが発想できる.別の言い方をするとあるエージェントへの行為を決めるときに他のエージェントの情報は省いて考えるということである.そのときあるエージェントの選択肢は2つ,自分の選択肢は2つであるので,その組み合わせで4つ存在する.あるエージェントから自分への行為→自分からあるエージェントへの行為が{(略奪する→略奪する),(略奪しない→略奪する)}をALL-D戦略,{(略奪する→略奪しない),(略奪しない→略奪しない)}をALL-C戦略,{(略奪する→略奪する),(略奪しない→略奪しない)}をTFT戦略,{(略奪する→略奪しない),(略奪しない→略奪する)}をCWD戦略と呼ぶ.

図1: 4つの戦略でシミュレーションしたときの状態の遷移(i行j列の成分はエージェントjがエージェントiに対して友好的(黄色)か敵対的(青)かを示している)
図2: 4つの戦略でシミュレーションしたときの戦略の遷移(戦略:上部,利得:下部)

先行研究

 中井らはこのバトルゲームにおいて情報の利用方法(=戦略)の新しい種類を提案している.この戦略はバトルゲームで十分生き残り,さらにこの戦略によって秩序状態が築かれることが示されている.その戦略のことを「私たち戦略」と呼ぶ.私たち戦略は次のステップの行為を決定する際に,あるエージェントが自分と自分の仲間にどんな行為をしたのかを観測して略奪的か略奪的でないかを判断し自分の行為を決定する戦略である.私たち戦略はこの思考法を導入することにより2種類増える.あるエージェントが自分と自分の仲間に対して略奪的か略奪的でないの2種類を判断したとき自分の選択肢は2種類であり,場合の数を計算すると4つ増えるように見える.しかし{(略奪的→略奪する),(略奪的でない→略奪する)}はALL-Dと同じである.同様に{(略奪的→略奪しない),(略奪的でない→略奪しない)}もALL-Cと同じである.そのため{(略奪的→略奪する),(略奪的でない→略奪しない)}をus-TFTと呼び,{(略奪的→略奪しない),(略奪的でない→略奪する)}をus-CWDと呼ぶ.

図3: 6つの戦略でシミュレーションしたときの状態の遷移(i行j列の成分はエージェントjがエージェントiに対して友好的(黄色)か敵対的(青)かを示している)
図4: 6つの戦略でシミュレーションしたときの戦略の遷移(戦略:上部,利得:下部)

主結果

 本研究ではバトルゲームの動的数理モデリングを行い,無秩序状態・秩序状態に不動点が存在することを証明した.また,安定性に関する性質として安定余裕を定義し,私たち戦略が基本戦略と比較して秩序状態における安定余裕が大きいことを示した.さらに,秩序状態の安定余裕がより大きな戦略を提案し,生き残りうることを示した.

今後の課題

 バンディット問題に落としこみより数学的に一般的な議論をすることや,ブール代数上のダイナミクスに関する諸性質を明らかにすること,後ろ向き合理性を学習理論と捉えシミュレーションの新たな設定を行うことなどが挙げられる.

参考文献

 [1] 紅林徹也, Society 5.0 の実現に向けたプラットフォームのあり方 (特集 Society 5.0 と社会応用への OR). オペレーションズ・リサーチ= Communications of the Operations Research Society of Japan: 経営の科学, Vol. 61(9), pp. 568-574, 2016.

 [2] D. Kahneman, Thinking, Fast and Slow, Macmillan, 2011.

 [3] 竹村和久, "リスク社会における判断と意思決定" 認知科学, pp. 17-31, 2006.

 [4] 成川康男, "非線形効用理論/累積プロスペクト理論 (<特集> ファジィ測度・積分)", 知能と情報, Vol. 16.4, pp. 296-302, 2004.

 [5] I. Gilboa, 不確実性下の意思決定理論, 川越敏司訳, 勁草書房, 2014.

 [6] 内閣府,第5期科学技術基本計画,http://www8.cao.go.jp/cstp/kihonkeikaku/5honbun.pdf (最終閲覧2017年9月15日)

 [7] H. A. Simon, Theories of bounded rationality. Decision and organization, Vol. 1, pp. 161-176, 1972.

 [8] R. D. McKelvey and T. R. Palfrey, Quantal response equilibria for normal form games, Games and Economic Behavior, Vol. 10, pp. 6-38, 1995.

 [9] Leonard, C.Thomas "Richard H. Thaler, Cass R. Sunstein, Nudge: Improving decisions about health, wealth, and happiness." Constitutional Political Economy, Vol. 19.4, pp. 356-360, 2008. APA

 [10] A. Tversky and D. Kahneman, "Advances in prospect theory: Cumulative representation of uncertainty.", Journal of Risk and uncertainty, Vol. 5, pp. 297-323, 1992.

 [11] 菅野道夫, あいまいさをもつ決定問題, 計測自動制御学会論文集, Vol. 11, No.6, pp. 709-714, 1975.

 [12] L. P. Metzger and M. O. Rieger, Equilibria in games with prospect theory preferencee, Working Paper 598, National Centre of Competence in Research Financial Valuation and Risk Manegement, 2009.

 [13] L. P. Metzger and M. O. Rieger, Non-cooperative games with prospect theory players and dominated strategies, Working paper, 2015.

 [14] K. Keskin, Mixed strategy equilibrium for agents with comulative prospect theory preferences, Working paper, 2014.

 [15] K. Keskin, Correlated equilibrium for agents with comulative prospect theory preferences, Working paper, 2015.

[16] M. O. Rieger, Evolutionary stability of prospect theory preferences, Journal of Mathematical Economics Vol. 50, pp 1?11, 2014.

[17] J. K. Goeree, et al., Risk averse behavior in generalized matching pennies games, Games and Economic Behavior, Vol. 45, pp 97-113, 2003.

[18] J. Shalve, Loss aversion equilibrium, International Journal of Game Theory,Vol. 29, pp 269-287, 2000.

[19] J. Rothe, Uncertainty aversion and equilibrium in normal form games, Contributions to game theory and management, Vol. 3, 2009.

[20] N. C. Barberis, Thirty years of prospect theory in economics: A review and assessment, Journal of Economic Perspectives, Vol. 27, pp. 173-196, 2013.

[21] T. Hatori and S. Fujii, An evolutionary study of pro-social behavior in a local community: A theoretical analysis of the emergence of altruistic bahavior based upon multilevel selection, 社会心理学研究, 第24巻, 第2号, pp. 87-97, 2008.

[22] 武藤正義, 日常世界的秩序問題のゲーム理論的分析, ソシオロゴス, No. 29, 2005.

[23] Y. Nakai and M. Muto, ”Evolutional simulation of peace with altruistic strategy for selected sriends”, Socio-Information Studies, Vol. 9, pp. 59-71, 2005.

[24] 池上高志, ゲームと,その背後の認知行為, ゲーム理論のフロンティア, 2005.

[25] R. Mashima and N. Takahashi, The emergence of indirect reciprocity: Evolutionary foundation of altruistic behavior based on “strict discriminator”, The Japanese Journal of Psychology, Vol. 76, No. 5, pp. 436-444, 2005.

[26] T. Sasaki, I. Okada and Y. Nakai, The evolution of conditional moral assessment in indirect reciprocity, Scientific Reports, No. 7, pp. 41870, 2017.

[27] 生天目章, 「ゲーム理論と進化ダイナミクス」人間関係に潜む複雑系 相互作用科学シリーズ, 森北出版, 2004.

[28] H. Kawasaki and A. Kira, 縮小写像の離散不動点定理と展開形ゲーム (最適化モデルとアルゴリズムの新展開), 数理解析研究所講究録, No. 1726, pp. 33-38, 2011.

[29] T. Sasaki and I. Okadaand, Y. Nakai, Indirect reciprocity can overcome free-rider problems on costly moral assessment,The Royal Society, Vol. 12, No. 7, 2016.

[30] I. Okada and T. Sasaki, Y. Nakai, Tolerant indirect reciprocity can boost social welfare through solidarity with unconditional cooperators in private monitoring, Scientific Reports, Vol. 7, 2017.

[31] S. J. Kim and M. Naruse, M. Aono, From AI to natural intelligence: Harnessing the computational power of nature, 電子情報通信学会論文誌 C, Vol.J100-C, No.6, pp.261-268, 2017.

[32] D. A. Berry and B. Fristedt, Bandit problems: sequential allocation of experiments (Monographs on statistics and applied probability), London: Chapman and Hall, Vol. 5, pp. 71-87, 1985.

[33] M. Naruse and S. J. Kim, M. Aono, M. Berthel, H. Hori, Category theoretic analysis of photon-based decision making, International Journal of Information Technology & Decision Making, pp. 1-29, 2016.

[34] A. Heath Rational choice and social exchange: A critique of exchange theory, Cambridge, Cambridge University Press, 1976.

[35] 大浦宏邦, 社会科学者のための進化ゲーム理論, 勁草書房, 2008.

[36] R. Onoda, 一般交換の新たな成立メカニズム :所属集団に関する情報の利用, 北海道大学大学院文学研究科博士論文, 2016.

2019年 3月1日