隨機控制

维基百科,自由的百科全书

隨機控制(stochastic control)或隨機最优控制(stochastic optimal control)是控制理论中的一個領域,是針對有不確定性的系統進行控制,不確定性可能是在量測上,也有可能是因為雜訊的影響。系統設計者會假設影響狀態變數的隨機雜訊,(以贝叶斯概率的觀點來看)其機率分布是已知的。隨機控制的目的是在雜訊存在的情形下,設計受控變數的時間軌跡,在最小成本的情形下(其成本可能會適有適當的定義)使系統完成預期的控制任務[1]。隨機控制可能是配合離散時間系統,也可能是連續時間系統。

確定性等效[编辑]

隨機控制中最常被探討的控制器是線性平方高斯控制(LQG控制),其模型為線性的,目標函數的期望值為二次性,而擾動是純疊加性的。若是離散時間集中式系統,其不確定性是純疊加性,有一個基本的特性為「確定性等效性質」(certainty equivalence property)[2]:其最佳控制的解和沒有疊加性擾動下的解一樣。所有線性系統方程、二次目標函數、雜訊為純疊加性的集中式系統中,確定性等效性質都會成立,二次目標函數的假設是讓(配合確定性等效性質)的最佳控制律是控制器觀測值的線性函數。

若有任何和上述假設不同的地方:非線性狀態方程、非二次目標函數、乘數不確定性英语Multiplier uncertainty或是系統為分散式控制系統都會讓確定性等效性質不成立。例如在分散式系統中的Witsenhausen反例就是說明確定性等效性質在分散式系統中不成立。

離散時間系統[编辑]

在離散時間系統中,控制器會在每個時間週期觀測狀態變數(也可能包括估測雜訊)。其目標可以針對所有時間內的非線性(可能是二次的)目標函數計算不同時間期望值的加權和,也可以只針對最後時間的目標函數進行最佳化。每個時間區間內會產生新的估測值,依最佳化的方式調整控制變數。找目前時間最佳解的作法是後向迭代計算線性平方高斯控制(矩陣Riccati方程),從最後的時間一直倒退迭代到目前時間。

考慮離散時間系統,其傳遞矩陣或控制響應矩陣中的參數有不確定性(因此狀態變數的目前值會有變化),但仍然是線性狀態函數以及二次性目標函數,仍然可以用每一個時間週期的解,用後向迭代的方式求解Riccati方程,不過可能沒有確定性等效的特性[2]ch.13[3]。若離散時間系統的目標函數不是二次性的,但是只要處理加性不確定性,也可以進行隨機控制,不過會比較複雜[4]

例子[编辑]

以下是一個典型的離散時間隨機線性二次控制問題,要最小化[2]:ch. 13;[3][5]

其中E1為在y0條件下的期望值運算子,上標T表示是转置矩阵S為時間區間,其狀態方程如下

其中yn × 1的可觀察狀態變數向量,uk × 1的控制變數向量,At是時間t時的隨機n × n狀態轉移矩陣的實現,Bt是時間t時的隨機n × k控制乘數矩陣的實現,Q (n × n)和R (k × k)是已知的正定費用矩陣。假設AB的每個元素都是在時間上聯合的独立同分布,因此期望值運算不用考慮時間的條件。

可以用貝爾曼方程得到每個時間的最佳控制解[2]:ch. 13

配合對稱正定cost-to-go矩陣X,從開始,以倒退時間方式迭代,方程式為

這個就是此問題離散時間下的動態Riccati方程。有關矩陣AB中未知參數所需要知道的資訊只有每個矩中每個元素的期望值、方差,同個矩陣不同元素的共變異數,以及不同矩陣中元素的共變異數。

若在狀態方程中有平均值為0、獨立且相同分佈(i.i.d.)的加性擾動出現,只要和矩陣AB的元素沒有關係,此擾動不會影響最佳方程。假如擾動和矩陣有關,每個時間的最佳控制解會包括額外的加性常數向量。若加性常數向量出現在狀態方程中,則每個時間的最佳控制解會再包括額外的加性常數向量。

X的穩態特徵若存在,會和S延伸到無限大的的無限時間問題相關。可以用重覆迭代動態方程中的X,一直到收斂為止來計算,此時的動態方程中的X就不用有關時間的下標了。

連續時間[编辑]

若模型是連續時間下的系統,控制器知道系統在每一個時間下的狀態。其目標可能是最大化狀態變數凹函數(Concave Function)的在時間區間0到最後時間T之間的積分。隨著時間的演進,會持續的觀測到新的值,也會依最佳化的方式來調整控制變數。

隨機模型預測控制[编辑]

在文獻中,有二種隨機系統的模型預測控制:強健模型預測控制(Robust model predictive control)及隨機模型預測控制(Stochastic Model Predictive Control,SMPC)。強健模型預測控制是較保守的方式,在最佳化過程中會考慮最差的情形,不過此方式和其他強健控制類似,會讓整個控制器的性能變差,只適用不確定性有明確範圍在系統。而隨機模型預測控制是用軟性的限制。是用機率的不等式來讓違反限制的機率不會超過一定範圍[6]

金融的應用[编辑]

在金融領域連續系統的研究中,隨機微分方程的狀態變數多半是財富或是淨值,控制變數是不同時間下各資產的配置情形。給定任一時間下的資產配置,財富變化的決定因素是資產的隨機收益以及無風險資產的利率。隨機控制的領域在1970年代開始大幅發展,有不少人應用在金融上。Robert Merton用隨機控制來研究安全資產以及風險資產的最佳投資組合英语optimal portfolio[7]Merton投資組合問題英语Merton's portfolio problem以及布莱克-舒尔兹模型改變了金融文獻的特質。有影響力的相關數學教科書包括Wendell FlemingFleming英语Wendell FlemingRishel合著的教科書[8]、以及Fleming和Soner英语Halil Mete Soner合著的教科書[9]Jerome Stein將這些技巧應用在2007年–2008年環球金融危機[10]

在最後日期T的淨值期望值對數的最大值,和財富成份的隨機過程有關。在連續系統中,伊藤引理是主要分析工具。若是要探討在時間(0,T)內凹函數積分的最大值,會使用動態規劃。這裡沒有類似較舊的文獻的確定等效關係,因為控制變數的係數(所選資產份額所獲得的回報)也是隨機性的。

相關條目[编辑]

参考文献[编辑]

  1. ^ Definition from Answers.com. [2018-09-05]. (原始内容存档于2019-03-31). 
  2. ^ 2.0 2.1 2.2 2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7. 
  3. ^ 3.0 3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614. 
  4. ^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y. 
  5. ^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888. 
  6. ^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710可免费查阅. 
  7. ^ Merton, Robert. Continuous Time Finance. Blackwell. 1990. 
  8. ^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. (原始内容存档于2021-04-28). 
  9. ^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006. 
  10. ^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.