flash movie
インパルス型ハイブリッドシステムで記述された非協力システムの解析

西角 哲

研究背景

非協力システム

複数の意思決定の主体の関係をダイナミカルシステムで記述しそれぞれの主体が持つ状態変数を制御する取り組みは,ネットワークシステムの解析や群ロボットの協調行動のための制御など以前から研究が盛んである.一方,近年では主体の利害関係が必ずしも一致するとは限らない,非協力関係にあるシステムの解析が進められている.このシステムのモデルは非協力ゲーム理論に基づく.ゲーム理論は,人間の意思決定を数理的に分析する道具として経済学の分野で生まれた学問であるが,近年では生物学や情報工学等,多くの分野にゲーム理論の考えを用いた分析が盛んである.主体が協力することのない非協力ゲームにおいて,主体は自分自身の戦略とそれを引数とした利得関数を持つ.主体は自身の利得関数を向上させることを目的として戦略を変更する.どの主体も戦略を変更する誘引を持たない状態をナッシュ均衡と呼び,非協力ゲームの解析では重要な概念である.多くの非協力ゲームに関する論文は戦略が離散的なものを扱う.ゲーム自体も静的なものがほとんどで,ナッシュ均衡の解を求めるにとどまっている.機械の運動や人間の活動では,現在の入力や戦略が将来の状態に作用する.非協力関係にあるシステムを解析するためには,非協力ゲームを動的なシステムに拡張し,状態が平衡点に近づくまたは遠ざかる過程を調べる必要がある.[1]では非協力ゲームを連続時間の状態方程式で表し,ナッシュ均衡の安定性解析を行い,不安定な場合に対し制御手法を提案している(以降,この非協力ゲームを適用したシステムを非協力システムと呼ぶ).非協力ゲームにおける状態の動き方として,勾配ゲーム(Gradient Play,GP) と仮想ゲーム(Fictious Play,FP) がある[2].勾配ゲームは[1]でも扱われた形式で,現在の状態における自身の利得関数の勾配に従って状態の速度が決定する.一方仮想ゲームでは,相手の状態が変わらないと仮定したときに自身の利得が最大となるような自身の状態に移動する.この点を最適反応と呼び,相手の状態に依存する関数と考えることも出来る.離散ダイナミクスにおいては,状態がこの最適反応へジャンプ(遷移) する.

インパルス型ハイブリットシステム

連続時間システムと離散時間システムが混在したハイブリッドシステムは,連続時間システムに比べより広範囲のダイナミカルシステムを扱うことが出来る.連続時間システムは力学系や化学反応式などの物理系に相当し, 一方で離散時間システムは人間が設計した論理構造や量子化により生じる離散現象などに当たる.ハイブリッドシステムの解析や制御に関する研究は1990 年初頭から研究が盛んに行われ, 既に多くの論文が発表されている[3].また,非線形ダイナミクスの分野からのアプローチも盛んで,線形システムには見られない現象が発見されている.ハイブリッドシステムは統一的な安定理論は未だ構築されておらず,特殊な条件やモデルに限定して解析が進められている.しかし,問題設定は物理的なモデルを対象としたものがが多く,人間の意思決定を入力に反映させたシステムについての研究は少ない. ハイブリッドシステムのモデルとして[4]で示されるようなインパルス型ハイブリットシステム(Impulsivehybrid system) がある.これは状態がある条件のもと離散的にジャンプするシステムで,人間による入力によって離散的なイベントが発生する例を扱うことができる.時間または状態がある条件を満たすと,離散ダイナミクスの式に従い状態がジャンプし,それ以外は連続ダイナミクスの微分方程式に従って状態が変化する.経済学では状態を資産やお金と定義したリアルオプション理論[5][6]などの例がある.生物学や社会学では状態を個体数や人口と定義することで,感染症モデル[7][8]や言語話者数の推移[9],漁業の乱獲問題[10][11],害虫駆除問題[12]などを扱っている.リセットシステムと呼ばれるハイブリッドシステムも同様の方程式で記述されており,こちらはソーシャルネットワークにおける合意問題[14]などの例がある.近年,ハイブリッドシステムの研究でもゲーム理論を用いた解析がなされている.[13]では,インパルス型ハイブリッドシステムの外乱抑制問題を非協力ゼロサムゲームで考えており,状態を引数とした利得関数がモデリングされている.[15]では,飛行機同士が衝突を防ぐための手法をハイブリッドシステムを用いて提案している.飛行機同士の距離によって,飛行機の行動方法が変化する.この距離が利得関数として定義されており,距離が一定となるような飛行機の入力を示している.しかし,状態の動的な振る舞いを扱う論文は少なく,状態がナッシュ均衡へ収束するか否かを論じているものはほとんど無い.インパルス型ハイブリッドシステムの研究では状態のジャンプが発生する条件として,時刻に応じて発生する時間依存と状態に応じる発生する状態依存を主に扱っている.これらはシステムの安定性に大きく関わる.特に状態依存については,複数の状態に依存する条件を扱ったものは少なく,複数の主体が依存関係にあるシステムを扱う上で注目すべき条件である.

研究目的

本研究では,より広範囲の非協力システムに対しナッシュ均衡の性質を調べるため,文献[1]のシステムを拡張し,状態のジャンプを含むインパルス型ハイブリッドシステムによって非協力システムを定義する.制御則の設計を見据え,連続時間と離散時間が切り替わる条件を定義・分類し,条件ごとにナッシュ均衡の安定性を解析する.また,非協力システムを背景としたインパルス型ハイブリッドシステムの非線形現象について調べ,安定性とともにパラメータと解の振る舞いの関係を見出す.

問題設定

本研究では,エージェントが二人の場合を扱い,状態の変化は自他のエージェントの意思決定のみに起因すると仮定する. 非協力ゲームにおいて,合理的なエージェントの意思は自身の利得関数の向上である.エージェントが利得関数の向上のための状態変化の方法は複数あるが,連続的な変化の一つとして勾配ゲーム(Gradient play)がある.これはエージェントが現在の状態・周囲の利得だけを考え近視眼的に意思決定することで発生する状態変化である.エージェント$i$の状態を$x_i(t)$,利得関数を$J_i(x_1(t),x_2(t))$とすると, \begin{equation*} f_{\mathrm{c}}(t)= \begin{bmatrix} \frac{\partial J_1(x(t))}{\partial x_1} \\ \frac{\partial J_2(x(t))}{\partial x_2} \end{bmatrix} \label{uc} \end{equation*} と表せる. 離散的な変化の一つとして,最適反応曲線(Best Response)に従う仮想ゲーム(Fictitious play)がある.これはエージェントが相手の戦略を先読みし,自分の最適な状態に離散的にジャンプする変化である.勾配ゲームよりも早く利得の高い最適な状態に近づく変化であるが,複数のエージェントがこの変化を起こすと,囚人のジレンマのように変化前より利得が減少してしまう事がある. 本研究では,勾配ゲームのみの先行研究に加え,仮想ゲームによって状態のジャンプが起こるダイナミクスをインパルス型ハイブリッドシステムとして定式化する.ナッシュ均衡を原点と仮定して,利得関数の成分を用いてダイナミクスを書き表すと, $$ \dot{x}(t)=- \begin{bmatrix} 2a_{11}^1&a_{12}^1+a_{21}^1\\ a_{12}^2+a_{21}^2&2a_{22}^2\\ \end{bmatrix} x(t),\quad (t,x(t))\not\in \mathcal{S} $$ $$ x(t^+)= \begin{bmatrix} 0 & -\frac{a_{12}^1+a_{21}^1}{2a_{11}^1}\\ -\frac{a_{12}^2+a_{21}^2}{2a_{22}^2} & 0\\ \end{bmatrix} x(t),\quad (t,x(t))\in \mathcal{S} $$ となる.連続ダイナミクスと離散ダイナミクスの間には拘束があり,前者の成分を用いて後者を表せるダイナミクスとなる. 一般に,連続ダイナミクスのみの安定性と状態のジャンプが発生するダイナミクスの安定性は一致せず,固有値解析などによる比較的簡単な安定判別法が通用しない. 本研究では,リアプノフ関数の候補を $$ V(x)=x^\mathrm{T}Px,\quad P>0 $$ として,$V(x(t))$の増減を調べることによって安定性の十分条件について議論を行った.

研究結果

安定性に関わるパラメーターは,利得関数の成分によって表示されたダイナミクスの係数,そしてresetting setである.ダイナミクスの係数によってはresetting setに関わらず安定である条件が存在し,その条件を示した.状態のジャンプの発生条件は,状態依存のものと時間(時刻)依存のものが研究されているが,本研究では周期解などが発生しない,領域の境界がナッシュ均衡を通る直線である状態依存システムを中心に安定判別法を示した.

図1:ダイナミクスの係数は同一だが,resetting setによって安定性が変わる例(上図:安定,下図:不安定)

参考文献

[1] Y. Yan and T. Hayakawa, "Stability of nash equilibrium and stabilization for non-cooperative systems with tax-reward approach," American Control Conference, 2018.

[2] J. S. Shamma and G. Arslan, "Dynamic fictitious play, dynamic gradient play, and distributed convergence to nash equilibria," IEEE Transactions on Automatic Control, vol. 50, no. 3, pp.312-327, Mar 2005.

[3] 井村順一,東俊一, "ハイブリッドシステムの制御-i:総論," システム/制御/情報, vol. 51, no. 5, pp. 230-237, 2007.

[4] W. M. Haddad, V. S. Chellaboina and N. A. Kablar, "Nonlinear impulsive dynamical systems. I. Stability and dissipativity," Proceedings of the 38th IEEE Conference on Decision and Control (Cat. No.99CH36304), Phoenix, AZ, USA, 1999, pp. 4404-4422 vol.5.

[5] 横松宗太,織田澤利守,小林潔司, "プロジェクトの実施遅延がもたらす経済損失評価," 都市計画論文集, vol. 36, pp. 925-930, 2001.

[6] 後藤允, "リアルオプション理論と設備投資問題: 確率制御アプローチ," オペレーションズ・リサーチ: 経営の科学, vol. 57, no. 10, pp. 560-565, 2012.

[7] L. Nie, Z. Teng, and A. Torres, "Dynamic analysis of an sir epidemic model with state dependent pulse vaccination," Nonlinear Analysis: Real World Applications, vol. 13, no. 4, pp. 1621-1629, 2012.

[8] 福田枝里子,谷本潤, "ワクチン接種の意思決定をめぐるジレンマ構造のゲーム理論的分析," 交通流と自己駆動粒子系シンポジウム論文集, vol. 25. 交通流数理研究会, 2015.

[9] L.-F. Nie, Z. Teng, J. Nieto, and I. H. Jung, "Dynamic analysis of a two-language competitive model with control strategies," Mathematical Problems in Engineering, vol. 2013, pp. 1-13, Dec 2013.

[10] Y. Pei, L. Chen, C. Li, and C. Wang, "Impulsive selective harvesting in a logistic fishery model with time delay," Journal of Biological Systems, vol. 14, no. 01, pp.91-99, 2006.

[11] 高坂健次,吹野卓, "漁業における乱獲の数理モデル," 理論と方法, vol. 4, no. 1, pp.93-116, 1989.

[12]J. S. Brown and K. Sta ? kov a , "Game theory as a conceptual framework for managing insect pests," Current Opinion in Insect Science, vol. 21, pp.26-32, 2017.

[13] I. Mor ă rescu, S. Martin, A. Girard, and A. Muller-Gueudin, “Coordination in networks of linear impulsive agents,” IEEE Transactions on Automatic Control, vol. 61, no. 9, pp. 2402–2415, Sep 2016.

[14] C. Possieri and M. Sassano, "L2-gain for hybrid linear systems with periodic jumps: A game theoretic approach for analysis and design," IEEE Transactions on Automatic Control, vol. 63, no. 8, pp. 2496-2507, Aug 2018.

[15] G. J. Pappas, C. Tomlin, and S. S. Sastry, "Confict resolution for multi-agent hybrid systems," in Proceedings of 35th IEEE Conference on Decision and Control, vol. 2, pp. 1184-1189, Dec 1996.

[16] B. Liu, X. Liu, and X. Liao, "Stability and robustness of quasi-linear impulsive hybrid systems," Journal of Mathematical Analysis and Applications, vol. 283, no. 2, pp. 416-430, 2003.

[17] H. Dietl, M. Grossmann, and M. Lang, “Competitive balance and revenue sharing in sports leagues with utility-maximizing teams,” Journal of Sports Economics, vol. 12, no. 3, pp. 284–308, 2011.

2019年 3月5日