隨機控制

隨機控制（stochastic control）或隨機最优控制（stochastic optimal control）是控制理论中的一個領域，是針對有不確定性的系統進行控制，不確定性可能是在量測上，也有可能是因為雜訊的影響。系統設計者會假設影響狀態變數的隨機雜訊，（以贝叶斯概率的觀點來看）其機率分布是已知的。隨機控制的目的是在雜訊存在的情形下，設計受控變數的時間軌跡，在最小成本的情形下（其成本可能會適有適當的定義）使系統完成預期的控制任務^[1]。隨機控制可能是配合離散時間系統，也可能是連續時間系統。

確定性等效[编辑]

隨機控制中最常被探討的控制器是線性平方高斯控制（LQG控制），其模型為線性的，目標函數的期望值為二次性，而擾動是純疊加性的。若是離散時間集中式系統，其不確定性是純疊加性，有一個基本的特性為「確定性等效性質」（certainty equivalence property）^[2]：其最佳控制的解和沒有疊加性擾動下的解一樣。所有線性系統方程、二次目標函數、雜訊為純疊加性的集中式系統中，確定性等效性質都會成立，二次目標函數的假設是讓（配合確定性等效性質）的最佳控制律是控制器觀測值的線性函數。

若有任何和上述假設不同的地方：非線性狀態方程、非二次目標函數、乘數不確定性（英语：Multiplier uncertainty）或是系統為分散式控制系統都會讓確定性等效性質不成立。例如在分散式系統中的Witsenhausen反例就是說明確定性等效性質在分散式系統中不成立。

離散時間系統[编辑]

在離散時間系統中，控制器會在每個時間週期觀測狀態變數（也可能包括估測雜訊）。其目標可以針對所有時間內的非線性（可能是二次的）目標函數計算不同時間期望值的加權和，也可以只針對最後時間的目標函數進行最佳化。每個時間區間內會產生新的估測值，依最佳化的方式調整控制變數。找目前時間最佳解的作法是後向迭代計算線性平方高斯控制（矩陣Riccati方程），從最後的時間一直倒退迭代到目前時間。

考慮離散時間系統，其傳遞矩陣或控制響應矩陣中的參數有不確定性（因此狀態變數的目前值會有變化），但仍然是線性狀態函數以及二次性目標函數，仍然可以用每一個時間週期的解，用後向迭代的方式求解Riccati方程，不過可能沒有確定性等效的特性^[2]^ch.13^[3]。若離散時間系統的目標函數不是二次性的，但是只要處理加性不確定性，也可以進行隨機控制，不過會比較複雜^[4]。

例子[编辑]

以下是一個典型的離散時間隨機線性二次控制問題，要最小化^[2]^{:ch. 13;}^[3]^[5]

{\text{E}}_{1}\sum _{t=1}^{S}[y_{t}^{T}Qy_{t}+u_{t}^{T}Ru_{t}]

其中E₁為在y₀條件下的期望值運算子，上標T表示是转置矩阵，S為時間區間，其狀態方程如下

y_{t}=A_{t}y_{t-1}+B_{t}u_{t},

其中y是n × 1的可觀察狀態變數向量，u是k × 1的控制變數向量，A_t是時間t時的隨機n × n狀態轉移矩陣的實現，B_t是時間t時的隨機n × k控制乘數矩陣的實現，Q (n × n)和R (k × k)是已知的正定費用矩陣。假設A和B的每個元素都是在時間上聯合的独立同分布，因此期望值運算不用考慮時間的條件。

可以用貝爾曼方程得到每個時間的最佳控制解^[2]^{:ch. 13}

u_{t}^{*}=-[{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A)y_{t-1},

配合對稱正定cost-to-go矩陣X，從 $X_{S}=Q$ 開始，以倒退時間方式迭代，方程式為

X_{t-1}=Q+{\text{E}}[A^{T}X_{t}A]-{\text{E}}[A^{T}X_{t}B][{\text{E}}(B^{T}X_{t}B+R)]^{-1}{\text{E}}(B^{T}X_{t}A),\,

這個就是此問題離散時間下的動態Riccati方程。有關矩陣A和B中未知參數所需要知道的資訊只有每個矩中每個元素的期望值、方差，同個矩陣不同元素的共變異數，以及不同矩陣中元素的共變異數。

若在狀態方程中有平均值為0、獨立且相同分佈（i.i.d.）的加性擾動出現，只要和矩陣A和B的元素沒有關係，此擾動不會影響最佳方程。假如擾動和矩陣有關，每個時間的最佳控制解會包括額外的加性常數向量。若加性常數向量出現在狀態方程中，則每個時間的最佳控制解會再包括額外的加性常數向量。

X的穩態特徵若存在，會和S延伸到無限大的的無限時間問題相關。可以用重覆迭代動態方程中的X，一直到收斂為止來計算，此時的動態方程中的X就不用有關時間的下標了。

連續時間[编辑]

若模型是連續時間下的系統，控制器知道系統在每一個時間下的狀態。其目標可能是最大化狀態變數凹函數（Concave Function）的在時間區間0到最後時間T之間的積分。隨著時間的演進，會持續的觀測到新的值，也會依最佳化的方式來調整控制變數。

隨機模型預測控制[编辑]

在文獻中，有二種隨機系統的模型預測控制：強健模型預測控制（Robust model predictive control）及隨機模型預測控制（Stochastic Model Predictive Control，SMPC）。強健模型預測控制是較保守的方式，在最佳化過程中會考慮最差的情形，不過此方式和其他強健控制類似，會讓整個控制器的性能變差，只適用不確定性有明確範圍在系統。而隨機模型預測控制是用軟性的限制。是用機率的不等式來讓違反限制的機率不會超過一定範圍^[6]。

金融的應用[编辑]

在金融領域連續系統的研究中，隨機微分方程的狀態變數多半是財富或是淨值，控制變數是不同時間下各資產的配置情形。給定任一時間下的資產配置，財富變化的決定因素是資產的隨機收益以及無風險資產的利率。隨機控制的領域在1970年代開始大幅發展，有不少人應用在金融上。Robert Merton用隨機控制來研究安全資產以及風險資產的最佳投資組合（英语：optimal portfolio）^[7]。Merton投資組合問題（英语：Merton's portfolio problem）以及布莱克-舒尔兹模型改變了金融文獻的特質。有影響力的相關數學教科書包括Wendell FlemingFleming（英语：Wendell Fleming）及Rishel合著的教科書^[8]、以及Fleming和Soner（英语：Halil Mete Soner）合著的教科書^[9]。Jerome Stein將這些技巧應用在2007年–2008年環球金融危機^[10]。

在最後日期T的淨值期望值對數的最大值，和財富成份的隨機過程有關。在連續系統中，伊藤引理是主要分析工具。若是要探討在時間(0,T)內凹函數積分的最大值，會使用動態規劃。這裡沒有類似較舊的文獻的確定等效關係，因為控制變數的係數（所選資產份額所獲得的回報）也是隨機性的。

参考文献[编辑]

^ Definition from Answers.com. [2018-09-05]. （原始内容存档于2019-03-31）.
^ ^2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.
^ ^3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.
^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.
^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .
^ Merton, Robert. Continuous Time Finance. Blackwell. 1990.
^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始内容存档于2021-04-28）.
^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.
^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1] Definition from Answers.com. [2018-09-05]. （原始内容存档于2019-03-31）.

[Chow-2] 2.0 ^2.1 ^2.2 ^2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.

[Turnovsky-3] 3.0 ^3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.

[4] Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.

[5] Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.

[6] Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .

[7] Merton, Robert. Continuous Time Finance. Blackwell. 1990.

[8] Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. （原始内容存档于2021-04-28）.

[9] Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.

[stein-10] Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]