随机控制

维基百科,自由的百科全书

随机控制(stochastic control)或随机最优控制(stochastic optimal control)是控制理论中的一个领域,是针对有不确定性的系统进行控制,不确定性可能是在量测上,也有可能是因为噪声的影响。系统设计者会假设影响状态变数的随机噪声,(以贝叶斯概率的观点来看)其几率分布是已知的。随机控制的目的是在噪声存在的情形下,设计受控变数的时间轨迹,在最小成本的情形下(其成本可能会适有适当的定义)使系统完成预期的控制任务[1]。随机控制可能是配合离散时间系统,也可能是连续时间系统。

确定性等效[编辑]

随机控制中最常被探讨的控制器是线性平方高斯控制(LQG控制),其模型为线性的,目标函数的期望值为二次性,而扰动是纯叠加性的。若是离散时间集中式系统,其不确定性是纯叠加性,有一个基本的特性为“确定性等效性质”(certainty equivalence property)[2]:其最佳控制的解和没有叠加性扰动下的解一样。所有线性系统方程、二次目标函数、噪声为纯叠加性的集中式系统中,确定性等效性质都会成立,二次目标函数的假设是让(配合确定性等效性质)的最佳控制律是控制器观测值的线性函数。

若有任何和上述假设不同的地方:非线性状态方程、非二次目标函数、乘数不确定性英语Multiplier uncertainty或是系统为分散式控制系统都会让确定性等效性质不成立。例如在分散式系统中的Witsenhausen反例就是说明确定性等效性质在分散式系统中不成立。

离散时间系统[编辑]

在离散时间系统中,控制器会在每个时间周期观测状态变数(也可能包括估测噪声)。其目标可以针对所有时间内的非线性(可能是二次的)目标函数计算不同时间期望值的加权和,也可以只针对最后时间的目标函数进行最佳化。每个时间区间内会产生新的估测值,依最佳化的方式调整控制变数。找目前时间最佳解的作法是后向迭代计算线性平方高斯控制(矩阵Riccati方程),从最后的时间一直倒退迭代到目前时间。

考虑离散时间系统,其传递矩阵或控制响应矩阵中的参数有不确定性(因此状态变数的目前值会有变化),但仍然是线性状态函数以及二次性目标函数,仍然可以用每一个时间周期的解,用后向迭代的方式求解Riccati方程,不过可能没有确定性等效的特性[2]ch.13[3]。若离散时间系统的目标函数不是二次性的,但是只要处理加性不确定性,也可以进行随机控制,不过会比较复杂[4]

例子[编辑]

以下是一个典型的离散时间随机线性二次控制问题,要最小化[2]:ch. 13;[3][5]

其中E1为在y0条件下的期望值运算子,上标T表示是转置矩阵S为时间区间,其状态方程如下

其中yn × 1的可观察状态变数向量,uk × 1的控制变数向量,At是时间t时的随机n × n状态转移矩阵的实现,Bt是时间t时的随机n × k控制乘数矩阵的实现,Q (n × n)和R (k × k)是已知的正定费用矩阵。假设AB的每个元素都是在时间上联合的独立同分布,因此期望值运算不用考虑时间的条件。

可以用贝尔曼方程得到每个时间的最佳控制解[2]:ch. 13

配合对称正定cost-to-go矩阵X,从开始,以倒退时间方式迭代,方程式为

这个就是此问题离散时间下的动态Riccati方程。有关矩阵AB中未知参数所需要知道的资讯只有每个矩中每个元素的期望值、方差,同个矩阵不同元素的共变异数,以及不同矩阵中元素的共变异数。

若在状态方程中有平均值为0、独立且相同分布(i.i.d.)的加性扰动出现,只要和矩阵AB的元素没有关系,此扰动不会影响最佳方程。假如扰动和矩阵有关,每个时间的最佳控制解会包括额外的加性常数向量。若加性常数向量出现在状态方程中,则每个时间的最佳控制解会再包括额外的加性常数向量。

X的稳态特征若存在,会和S延伸到无限大的的无限时间问题相关。可以用重复迭代动态方程中的X,一直到收敛为止来计算,此时的动态方程中的X就不用有关时间的下标了。

连续时间[编辑]

若模型是连续时间下的系统,控制器知道系统在每一个时间下的状态。其目标可能是最大化状态变数凹函数(Concave Function)的在时间区间0到最后时间T之间的积分。随着时间的演进,会持续的观测到新的值,也会依最佳化的方式来调整控制变数。

随机模型预测控制[编辑]

在文献中,有二种随机系统的模型预测控制:强健模型预测控制(Robust model predictive control)及随机模型预测控制(Stochastic Model Predictive Control,SMPC)。强健模型预测控制是较保守的方式,在最佳化过程中会考虑最差的情形,不过此方式和其他强健控制类似,会让整个控制器的性能变差,只适用不确定性有明确范围在系统。而随机模型预测控制是用软性的限制。是用几率的不等式来让违反限制的几率不会超过一定范围[6]

金融的应用[编辑]

在金融领域连续系统的研究中,随机微分方程的状态变数多半是财富或是净值,控制变数是不同时间下各资产的配置情形。给定任一时间下的资产配置,财富变化的决定因素是资产的随机收益以及无风险资产的利率。随机控制的领域在1970年代开始大幅发展,有不少人应用在金融上。Robert Merton用随机控制来研究安全资产以及风险资产的最佳投资组合英语optimal portfolio[7]Merton投资组合问题英语Merton's portfolio problem以及布莱克-舒尔兹模型改变了金融文献的特质。有影响力的相关数学教科书包括Wendell FlemingFleming英语Wendell FlemingRishel合著的教科书[8]、以及Fleming和Soner英语Halil Mete Soner合著的教科书[9]Jerome Stein将这些技巧应用在2007年–2008年环球金融危机[10]

在最后日期T的净值期望值对数的最大值,和财富成分的随机过程有关。在连续系统中,伊藤引理是主要分析工具。若是要探讨在时间(0,T)内凹函数积分的最大值,会使用动态规划。这里没有类似较旧的文献的确定等效关系,因为控制变数的系数(所选资产份额所获得的回报)也是随机性的。

相关条目[编辑]

参考文献[编辑]

  1. ^ Definition from Answers.com. [2018-09-05]. (原始内容存档于2019-03-31). 
  2. ^ 2.0 2.1 2.2 2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7. 
  3. ^ 3.0 3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614. 
  4. ^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y. 
  5. ^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888. 
  6. ^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710可免费查阅. 
  7. ^ Merton, Robert. Continuous Time Finance. Blackwell. 1990. 
  8. ^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. (原始内容存档于2021-04-28). 
  9. ^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006. 
  10. ^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.