吉洪诺夫正则化:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
修正笔误 修饰语句
新条目
第1行: 第1行:
{{expand English | Tikhonov regularization | time = 2019-3-31}}
{{回归侧栏}}
{{回归侧栏}}
'''吉洪诺夫正则化'''[[安德烈·尼古拉耶维奇·吉洪诺夫]]命名,为[[适定性问题|非适定性问题]]的[[正则化 (数学)|正则化]]中最常见的方法。在[[統計學]]中,本方法被稱為'''脊迴歸'''或'''岭回归'''({{lang|en|ridge regression}});在[[機器學習]]領域則稱為'''權重衰減'''或'''權值衰減'''({{lang|en|weight decay}})。因為有不同的數學家獨立發現此方法,此方法又稱做'''吉洪諾夫-米勒法'''({{lang|en|Tikhonov–Miller method}})、'''菲利浦斯-圖米法'''({{lang|en|Phillips–Twomey method}})、'''受限線性反演'''({{lang|en|constrained linear inversion method}}),或'''線性正規化'''({{lang|en|linear regularization}})。此方法亦和用在{{link-en|非線性最小二乘法|Non-linear_least_squares}}的[[萊文貝格-馬夸特方法]]相關。
'''吉洪诺夫正则化'''得名于[[安德烈·尼古拉耶维奇·吉洪诺夫]],是在自变量高度相关的情景下估计多元[[回归分析|回归]]模型[[系数]]的方法。<ref name=Hilt>{{cite book |last1=Hilt |first1=Donald E. |last2=Seegrist |first2=Donald W. |title=Ridge, a computer program for calculating ridge regression estimates |date=1977 |doi=10.5962/bhl.title.68934 |url=https://www.biodiversitylibrary.org/bibliography/68934 }}{{pn|date=April 2022}}</ref>它已被用于许多领域,包括计量经济学、化学和工程学。<ref name=Gruber />吉洪诺夫正则化为[[适定性问题|非适定性问题]]的[[正则化 (数学)|正则化]]中最常见的方法。在[[統計學]]中,本方法被稱為'''脊迴歸'''或'''岭回归'''({{lang|en|ridge regression}});在[[機器學習]]領域則稱為'''權重衰減'''或'''權值衰減'''({{lang|en|weight decay}})。因為有不同的數學家獨立發現此方法,此方法又稱做'''吉洪諾夫-米勒法'''({{lang|en|Tikhonov–Miller method}})、'''菲利浦斯-圖米法'''({{lang|en|Phillips–Twomey method}})、'''受限線性反演'''({{lang|en|constrained linear inversion method}}),或'''線性正規化'''({{lang|en|linear regularization}})。此方法亦和用在{{link-en|非線性最小二乘法|Non-linear_least_squares}}的[[萊文貝格-馬夸特方法]]相關。它对于缓解[[线性回归]]中的[[多重共线性]]问题特别有用,这常见于有大量参数的模型中。<ref>{{cite book |first=Peter |last=Kennedy |author-link=Peter Kennedy (economist) |title=A Guide to Econometrics |location=Cambridge |publisher=The MIT Press |edition=Fifth |year=2003 |isbn=0-262-61183-X |pages=205–206 |url=https://books.google.com/books?id=B8I5SP69e4kC&pg=PA205 }}</ref>总的来说,这种方法提高了参数估计的效率,但也有可容忍的[[估计量的偏差|偏差]](见[[偏差-方差权衡]])。<ref>{{cite book |first=Marvin |last=Gruber |title=Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators |location=Boca Raton |publisher=CRC Press |year=1998 |pages=7–15 |isbn=0-8247-0156-9 |url=https://books.google.com/books?id=wmA_R3ZFrXYC&pg=PA7 }}</ref>

该理论于1970年由Hoerl与Kennard发表在《技术计量学》上的文章《岭回归:非正交问题的偏估计》及《岭回归:非正交问题中的应用》中首次提出。<ref>{{cite journal |last1=Hoerl |first1=Arthur E. |last2=Kennard |first2=Robert W. |title=Ridge Regression: Biased Estimation for Nonorthogonal Problems |journal=Technometrics |date=1970 |volume=12 |issue=1 |pages=55–67 |doi=10.2307/1267351 |jstor=1267351 }}</ref><ref>{{cite journal |last1=Hoerl |first1=Arthur E. |last2=Kennard |first2=Robert W. |title=Ridge Regression: Applications to Nonorthogonal Problems |journal=Technometrics |date=1970 |volume=12 |issue=1 |pages=69–82 |doi=10.2307/1267352 |jstor=1267352 }}</ref><ref name=Hilt /> This was the result of ten years of research into the field of ridge analysis.<ref name=Beck>{{cite book |last1=Beck |first1=James Vere |last2=Arnold |first2=Kenneth J. |title=Parameter Estimation in Engineering and Science |date=1977 |publisher=James Beck |isbn=978-0-471-06118-2 |page=287 |url=https://books.google.com/books?id=_qAYgYN87UQC&pg=PA287 }}</ref>

岭回归是通过创建岭回归估计量(RR)实现的。当线性回归模型具有多重共线(高度相关)的自变量时,岭回归对于最小二乘估计的不精确性是一种可能的解决方案。这提供了更精确的岭参数估计,因为它的方差和均方估计量通常小于先前推导的最小二乘估计量。<ref name=Jolliffe>{{cite book |last1=Jolliffe |first1=I. T. |title=Principal Component Analysis |date=2006 |publisher=Springer Science & Business Media |isbn=978-0-387-22440-4 |page=178 |url=https://books.google.com/books?id=6ZUMBwAAQBAJ&pg=PA178 }}</ref><ref name=Gruber>{{cite book |last1=Gruber |first1=Marvin |title=Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators |date=1998 |publisher=CRC Press |isbn=978-0-8247-0156-7 |page=2 |url=https://books.google.com/books?id=wmA_R3ZFrXYC&pg=PA2 }}</ref>


当求解超定问题(即<math>A_{m \times n}x=b, m > n</math>)时, 矩阵<math> A </math> 的协方差矩阵 <math> A^H A </math> 奇异或接近奇异时,利用最小二乘方法求出的结果 <math> \hat{x}_{LS}=(A^H A)^{-1} A^H b </math> 会出现发散或对<math> x </math> 不合理的逼近。为了解决这一问题,吉洪诺夫于1963年提出了利用正则化项修改最小二乘的代价函数的方法,修改后的代价函数如下:
当求解超定问题(即<math>A_{m \times n}x=b, m > n</math>)时, 矩阵<math> A </math> 的协方差矩阵 <math> A^H A </math> 奇异或接近奇异时,利用最小二乘方法求出的结果 <math> \hat{x}_{LS}=(A^H A)^{-1} A^H b </math> 会出现发散或对<math> x </math> 不合理的逼近。为了解决这一问题,吉洪诺夫于1963年提出了利用正则化项修改最小二乘的代价函数的方法,修改后的代价函数如下:
第11行: 第14行:
式中 <math> \lambda \ge 0 </math> 称为正则化参数<ref>{{cite journal |author1=Tikhonov A.N. |title=Solution of Incorrectly Formulated Problems and the Regularization Method |journal=Soviet Mathematics Doklady |date=1963 |volume=4 |pages=1035-1038}}</ref>,这种方法被称为吉洪诺夫正则化。
式中 <math> \lambda \ge 0 </math> 称为正则化参数<ref>{{cite journal |author1=Tikhonov A.N. |title=Solution of Incorrectly Formulated Problems and the Regularization Method |journal=Soviet Mathematics Doklady |date=1963 |volume=4 |pages=1035-1038}}</ref>,这种方法被称为吉洪诺夫正则化。


== 參考資料 ==
==概览==
在最简单的情况下,向[[主对角线]]添加正元素可以缓解近[[可逆矩阵|奇异]][[矩量矩阵]]<math>(\mathbf{X}^\mathsf{T}\mathbf{X})</math>问题,减少[[条件数]]。类似于[[普通最小二乘法|最小二乘]]估计量,简单岭估计量可定义为
{{reflist}}

:<math>\hat{\beta}_{R} = (\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}</math>
其中<math>\mathbf{y}</math>是回归子,<math>\mathbf{X}</math>是[[设计矩阵]],<math>\mathbf{I}</math>是[[单位矩阵]],岭参数<math>\lambda \geq 0</math>则是矩量矩阵对角线的恒定位移。<ref>关于实践中<math>\lambda</math>的选择,参{{cite journal |first1=Ghadban |last1=Khalaf |first2=Ghazi |last2=Shukur |title=Choosing Ridge Parameter for Regression Problems |journal=[[Communications in Statistics – Theory and Methods]] |volume=34 |year=2005 |issue=5 |pages=1177–1182 |doi=10.1081/STA-200056836 |s2cid=122983724 }}</ref>可以证明这个估计量是[[约束 (数学)|约束]]为<math>\beta^\mathsf{T}\beta = c</math>的[[最小二乘]]问题的解,可表达为拉格朗日形式:
:<math>\min_{\beta} \, (\mathbf{y} - \mathbf{X} \beta)^\mathsf{T}(\mathbf{y} - \mathbf{X} \beta) + \lambda (\beta^\mathsf{T}\beta - c)</math>
其说明,<math>\lambda</math>不过是约束的[[拉格朗日乘数]]。<ref>{{Cite arXiv|last=van Wieringen |first=Wessel |date=2021-05-31 |title=Lecture notes on ridge regression |class=stat.ME |eprint=1509.09169 }}</ref>通常要根据启发式准则选择<math>\lambda</math>,以便不完全满足约束。特别是在约束<math>\lambda = 0</math>,即非约束约束(non-binding constrain),岭估计量退化为[[普通最小二乘法]]。下面讨论一种更通用的吉洪诺夫正则化方法。


==历史==
吉洪诺夫正则化是在许多不同背景下独立发明的。
[[安德烈·吉洪诺夫]]<ref>{{Cite journal| last=Tikhonov | first=Andrey Nikolayevich | author-link=Andrey Nikolayevich Tikhonov | year=1943 | title=Об устойчивости обратных задач |trans-title=On the stability of inverse problems | journal=[[Doklady Akademii Nauk SSSR]] | volume=39 | issue=5 | pages=195–198|url=http://a-server.math.nsc.ru/IPP/BASE_WORK/tihon_en.html| archive-url=https://web.archive.org/web/20050227163812/http://a-server.math.nsc.ru/IPP/BASE_WORK/tihon_en.html | archive-date=2005-02-27 }}</ref><ref>{{Cite journal| last=Tikhonov | first=A. N. | year=1963 | title=О решении некорректно поставленных задач и методе регуляризации | journal=Doklady Akademii Nauk SSSR | volume=151 | pages=501–504}}. Translated in {{Cite journal| journal=Soviet Mathematics | volume=4 | pages=1035–1038 | title=Solution of incorrectly formulated problems and the regularization method }}</ref><ref>{{Cite book| last=Tikhonov | first=A. N. |author2=V. Y. Arsenin | year=1977 | title=Solution of Ill-posed Problems | publisher=Winston & Sons | location=Washington | isbn=0-470-99124-0}}</ref><ref>{{cite book |last1=Tikhonov |first1=Andrey Nikolayevich |last2=Goncharsky |first2=A. |last3=Stepanov |first3=V. V. |last4=Yagola |first4=Anatolij Grigorevic |title=Numerical Methods for the Solution of Ill-Posed Problems |date=30 June 1995 |publisher=Springer Netherlands |location=Netherlands |isbn=079233583X |url=https://www.springer.com/us/book/9780792335832 |access-date=9 August 2018 |ref=TikhonovSpringer1995Numerical}}</ref><ref>{{cite book |last1=Tikhonov |first1=Andrey Nikolaevich |last2=Leonov |first2=Aleksandr S. |last3=Yagola |first3=Anatolij Grigorevic |title=Nonlinear ill-posed problems |date=1998 |publisher=Chapman & Hall |location=London |isbn=0412786605 |url=https://www.springer.com/us/book/9789401751698 |access-date=9 August 2018 |ref=TikhonovChapmanHall1998Nonlinear}}</ref>和David L. Phillips最早使用了这种方法。<ref>{{Cite journal | last1 = Phillips | first1 = D. L. | doi = 10.1145/321105.321114 | title = A Technique for the Numerical Solution of Certain Integral Equations of the First Kind | journal = Journal of the ACM | volume = 9 | pages = 84–97 | year = 1962 | s2cid = 35368397 }}</ref>
有限维情形由采用统计方法的Arthur E. Hoerl<ref>{{cite journal |last1=Hoerl |first1=Arthur E. |title=Application of Ridge Analysis to Regression Problems |journal=Chemical Engineering Progress |date=1962 |volume=58 |issue=3 |pages=54–59 |ref=AEHoerl1962V58I3}}</ref>和Manus Foster完成,后者将其解释为[[克里金法]]滤子。<ref>{{Cite journal | last1 = Foster | first1 = M. | title = An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion | doi = 10.1137/0109031 | journal = Journal of the Society for Industrial and Applied Mathematics | volume = 9 | issue = 3 | pages = 387–392 | year = 1961 }}</ref>自Hoerl之后,这种方法在统计学文献中被称为岭回归,<ref>{{cite journal | last = Hoerl | first = A. E. |author2=R. W. Kennard | year = 1970 | title=Ridge regression: Biased estimation for nonorthogonal problems | journal=Technometrics | volume=12 | issue=1 | pages = 55–67 | doi=10.1080/00401706.1970.10488634}}</ref>以沿单位矩阵对角线的形状命名。


==吉洪诺夫正则化==
假设对已知矩阵<math>A</math>和向量<math>\mathbf{b}</math>,我们希望找到向量<math>\mathbf{x}</math>使{{Clarify|reason=what are the relative dimensions of A, b and x/ is A a square or non-square matrix?; are x and y of the same dimension|date=May 2020}}
: <math>A\mathbf{x} = \mathbf{b}.</math>
标准方法是[[普通最小二乘法]]线性回归。{{Clarify|reason=does this represent a system of linear equations (i.e. are x and b both of the same dimension as one side of the - supposedly square - matrix? then, as far as I know, the standard approach for solving it is any of a wide range of solvers ''not'' including linear regression|date=May 2020}}但若没有<math>\mathbf{x}</math>满足方程或超过一个<math>\mathbf{x}</math>满足(即解不唯一),则待研究问题为[[适定性问题|不适定]]问题,普通最小二乘估计会导致方程组[[过定系统|过定]]或[[欠定系统|欠定]]。大多数现实世界的现象在前向问题中都具有[[低通滤波器|低通滤]]性质{{Clarify|reason=If multiplying a matrix by x is a filter, what in A is a frequency, and what values correspond to high or low frequencies?|date=November 2022}},其中<math>A</math>将<math>\mathbf{x}</math>映射到<math>\mathbf{b}</math>。因此在解决逆问题时,逆映射作为[[高通滤波器]],具有放大噪声的不良趋势([[特征值]]/奇异值在逆映射中最大,在正映射中最小)。此外,普通最小二乘隐式地消除了位于<math>A</math>的零空间的<math>\mathbf{x}</math>的重建版本的每个元素,而非允许将模型用作<math>\mathbf{x}</math>的先验。
普通最小二乘寻找最小化[[残差]]平方和,可以紧凑地写作
: <math>\|A\mathbf{x} - \mathbf{b}\|_2^2,</math>
其中<math>\|\cdot\|_2</math>是欧几里得范数。

为优先选择具有所需性质的特定解,可在最小化中包含正则化项:
: <math>\|A\mathbf{x} - \mathbf{b}\|_2^2 + \|\Gamma \mathbf{x}\|_2^2</math>
其中'''吉洪诺夫矩阵'''<math>\Gamma </math>需要适当选取,许多时候选为[[单位矩阵]]的标量倍数(<math>\Gamma = \alpha I</math>),并优先考虑范数较小的解;这叫做'''{{math|''L''<sub>2</sub>}}正则化'''。<ref>{{cite conference |first=Andrew Y. |last=Ng |author-link=Andrew Ng |year=2004 |title=Feature selection, L1 vs. L2 regularization, and rotational invariance |conference=Proc. [[International Conference on Machine Learning|ICML]] |url=https://icml.cc/Conferences/2004/proceedings/papers/354.pdf}}</ref>这之外,若认为基础向量几乎连续,则可使用高通运算(如[[递推关系式]]或加权[[离散傅里叶变换]])以实现平滑。这种正则化改进了问题条件,从而实现了直接的数值求解。显式解表示为<math>\hat{x}</math>,是这样得到:
: <math>\hat{x} = (A^\top A + \Gamma^\top \Gamma)^{-1} A^\top \mathbf{b}.</math>
正则化的效果可能因矩阵<math>\Gamma</math>的尺度而异。若择<math>\Gamma = 0</math>,如(A<sup>T</sup>A)<sup>−1</sup>存在,则简化为非正则化最小二乘解。

除线性回归外,{{math|''L''<sub>2</sub>}}正则化还有许多应用场景,如[[逻辑斯谛回归]]或[[支持向量机]][[统计分类|分类]],<ref>{{cite journal |author1=R.-E. Fan |author2=K.-W. Chang |author3=C.-J. Hsieh |author4=X.-R. Wang |author5=C.-J. Lin |title=LIBLINEAR: A library for large linear classification |journal=[[Journal of Machine Learning Research]] |volume=9 |pages=1871–1874 |year=2008}}</ref>以及矩阵分解。<ref>{{cite journal |last1=Guan |first1=Naiyang |first2=Dacheng |last2=Tao |first3=Zhigang |last3=Luo |first4=Bo |last4=Yuan |title=Online nonnegative matrix factorization with robust stochastic approximation |journal=IEEE Transactions on Neural Networks and Learning Systems |volume=23 |issue=7 |year=2012 |pages=1087–1099|doi=10.1109/TNNLS.2012.2197827 |pmid=24807135 |s2cid=8755408 }}</ref>

===广义吉洪诺夫正则化===
对于<math>x</math>和数据误差的多元正态分布,c可以应用变量的变换来简化上述情况。等价地,可以寻求最小化<math>x</math>:

: <math>\|Ax - b\|_P^2 + \|x - x_0\|_Q^2,</math>

其中<math>\|x\|_Q^2</math>表示加权范数平方<math>x^\top Q x</math>(比较[[马哈拉诺比斯距离]])。在贝叶斯解释中,<math>P</math>是<math>b</math>的逆[[协方差矩阵]];<math>x_0</math>是<math>x</math>的[[期望]];<math>Q</math>是<math>x</math>的逆协方差矩阵。吉洪诺夫矩阵为矩阵<math>Q = \Gamma^\top \Gamma</math>的分解(如[[科列斯基分解]]),可视作[[白化变换]]器。

这个推广问题有最优解<math>x^*</math>,可以使用公式显式地写为

: <math>x^* = (A^\top PA + Q)^{-1} (A^\top Pb + Qx_0),</math>

或等效地,当Q非空:

: <math>x^* = x_0 + (A^\top PA + Q)^{-1} (A^\top P(b - Ax_0)).</math>

==拉夫连季耶夫正则化==
有时可以避免使用<math>A^\top</math>,这由[[米哈伊尔·拉夫连季耶夫]]指出。<ref>{{cite book |first=M. M. |last=Lavrentiev |title=Some Improperly Posed Problems of Mathematical Physics |publisher=Springer |location=New York |year=1967 }}</ref>例如,若<math>A</math>是对称正定矩阵,即<math>A = A^\top > 0</math>,则其逆<math>A^{-1}</math>可以用来在广义吉洪诺夫正则化中构造加权范数平方<math>\|x\|_P^2 = x^\top A^{-1} x</math>,则有最小化

: <math>\|Ax - b\|_{A^{-1}}^2 + \|x - x_0\|_Q^2</math>
或等价地由常数项,
: <math>x^\top (A+Q)x - 2 x^\top (b + Qx_0)</math>.

该最小化问题有最优解<math>x^*</math>,可以紧凑地写作公式

: <math>x^* = (A + Q)^{-1} (b + Qx_0)</math>,

是广义吉洪诺夫问题的解,其中<math>A = A^\top =P^{-1}</math>。

拉夫连季耶夫正则化对原吉洪诺夫正则化有利,因为拉夫连季耶夫矩阵<math>A + Q</math>的[[条件数]]比吉洪诺夫矩阵<math>A^\top A + \Gamma^\top \Gamma</math>小。

==希尔伯特空间中的正则化==
典型的离散线性非适定问题由[[积分方程]]的离散化引起,可以在原始的无穷维背景中实现吉洪诺夫正则化。上面,我们可以将<math>A</math>解释为[[希尔伯特空间]]上的[[紧算子]],<math>x</math>、<math>b</math>为<math>A</math>的域与范围上的元素。<math>A^* A + \Gamma^\top \Gamma </math>是[[埃尔米特伴随|自伴随]]有界可逆运算。


==与奇异值分解和维纳滤波器的关系==
有<math>\Gamma = \alpha I</math>这个最小二乘解可用[[奇异值分解]]以特殊的方式分析。给定奇异值分解

:<math>A = U \Sigma V^\top</math>

,奇异值<math>\sigma _i</math>,则吉洪诺夫正则解可表为

:<math>\hat{x} = V D U^\top b,</math>

其中<math>D</math>的对角值为

:<math>D_{ii} = \frac{\sigma_i}{\sigma_i^2 + \alpha^2}</math>

其余地方都是0。这表明吉洪诺夫参数对正则化问题[[条件数]]的影响。对于广义情况,可以使用[[广义奇异值分解]]推导出类似的表示。<ref name="Hansen_SIAM_1998">{{cite book |last1=Hansen |first1=Per Christian |title=Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion |date=Jan 1, 1998 |publisher=SIAM |location=Philadelphia, USA |isbn=9780898714036 |edition=1st }}</ref>

最后,其与[[维纳滤波]]有关:

:<math>\hat{x} = \sum _{i=1}^q f_i \frac{u_i^\top b}{\sigma_i} v_i,</math>

其中维纳权为<math>f_i = \frac{\sigma _i^2}{\sigma_i^2 + \alpha^2}</math>;<math>q</math>是<math>A</math>的[[秩 (线性代数)|秩]]。

==确定吉洪诺夫因子==
最佳正则化参数<math>\alpha</math>一般未知,在实践中常常临时确定。一种可能的方法依赖于下面描述的贝叶斯解释。其他方法包括偏差原理、[[交叉验证]]、L曲线法、<ref>P. C. Hansen, "The L-curve and its use in the
numerical treatment of inverse problems", [https://www.sintef.no/globalassets/project/evitameeting/2005/lcurve.pdf]</ref>[[约束最大似然法]]和无偏预测风险估计。Grace Wahba证明,这种最优参数用留一交叉验证最小<ref>{{cite journal |last=Wahba |first=G. |year=1990 |title=Spline Models for Observational Data |journal=CBMS-NSF Regional Conference Series in Applied Mathematics |publisher=Society for Industrial and Applied Mathematics |bibcode=1990smod.conf.....W }}</ref><ref>{{cite journal |last3=Wahba |first3=G. |first1=G. |last1=Golub |first2=M. |last2=Heath |year=1979 |title=Generalized cross-validation as a method for choosing a good ridge parameter |journal=Technometrics |volume=21 |issue=2 |pages=215–223 |url=http://www.stat.wisc.edu/~wahba/ftp1/oldie/golub.heath.wahba.pdf |doi=10.1080/00401706.1979.10489751}}</ref>

:<math>G = \frac{\operatorname{RSS}}{\tau^2} = \frac{\|X \hat{\beta} - y\|^2}{[\operatorname{Tr}(I - X(X^T X + \alpha^2 I)^{-1} X^T)]^2},</math>

其中<math>\operatorname{RSS}</math>是[[残差平方和]],<math>\tau</math>是[[自由度 (统计学)|自由度]]。

用前面的SVD分解,可以简化上述表达式:
:<math>\operatorname{RSS} = \left\| y - \sum_{i=1}^q (u_i' b) u_i \right\|^2 + \left\| \sum _{i=1}^q \frac{\alpha^2}{\sigma_i^2 + \alpha^2} (u_i' b) u_i \right\|^2,</math>

:<math>\operatorname{RSS} = \operatorname{RSS}_0 + \left\| \sum_{i=1}^q \frac{\alpha^2}{\sigma_i^2 + \alpha^2} (u_i' b) u_i \right\|^2,</math>


:<math>\tau = m - \sum_{i=1}^q \frac{\sigma_i^2}{\sigma_i^2 + \alpha^2}
= m - q + \sum_{i=1}^q \frac{\alpha^2}{\sigma _i^2 + \alpha^2}.</math>

==与概率表述的关系==
[[逆问题]]的概率公式引入了(当所有不确定量都为正态量时)表示模型参数先验不确定性的协方差矩阵<math> C_M</math>,以及表示观测参数不确定性的协方差矩阵<math> C_D</math>。<ref>{{cite book |last1=Tarantola |first1=Albert |title=Inverse Problem Theory and Methods for Model Parameter Estimation |date=2005 |publisher=Society for Industrial and Applied Mathematics (SIAM) |location=Philadelphia |isbn=0898717922 |edition=1st |url=http://www.ipgp.jussieu.fr/~tarantola/Files/Professional/SIAM/index.html |access-date=2018-08-09 |ref=ATarantolaSIAM2004}}</ref>当它们都是对角各向同性矩阵(<math> C_M = \sigma_M^2 I </math>),且<math> C_D = \sigma_D^2 I </math>,则逆理论方程简化为上述方程,且<math> \alpha = {\sigma_D}/{\sigma_M} </math>。

==贝叶斯解释==
{{main|核正则化的贝叶斯解释}}
虽然选择这个正则化问题的解可能看起来是人为的,而且矩阵<math>\Gamma</math>似乎相当武断,但从[[贝叶斯概率|贝叶斯]]的角度来看,这个过程是合理的。<ref>{{cite book |first=Edward |last=Greenberg |first2=Charles E., Jr. |last2=Webster |title=Advanced Econometrics : A Bridge to the Literature |location=New York |publisher=John Wiley & Sons |year=1983 |pages=207–213 |isbn=0-471-09077-8 }}</ref>注意,不适定问题必须引入额外假设才能得到唯一解。在统计学中,<math>x</math>的[[先验概率|先验分布]]有时被认为是[[多元正态分布]]。为简单起见,此处做出以下假设:均值为零;组分独立;组分[[标准差]]均为<math>\sigma _x</math>。数据也受误差影响,并且假设<math>b</math>中的误差[[独立 (概率论)|独立]],均值为零,标准差为<math>\sigma _b</math>。在这些假设下,根据[[贝叶斯定理]],吉洪诺夫正则化解是给定数据和<math>x</math>的先验分布的[[最大后验概率|最可能的]]解。<ref>{{cite book |author=Vogel, Curtis R. |title=Computational methods for inverse problems |publisher=Society for Industrial and Applied Mathematics |location=Philadelphia |year=2002 |isbn=0-89871-550-4 }}</ref>

若[[正态分布|正态性]]假设被[[异方差|同方差]]和无关[[误差]]假设代替,且若假设均值仍是零,则[[高斯-马尔可夫定理]]意味着解是最小 [[估计量的偏差|无偏线性估计量]]。<ref>{{cite book |last=Amemiya |first=Takeshi |author-link=Takeshi Amemiya |year=1985 |title=Advanced Econometrics |publisher=Harvard University Press |pages=[https://archive.org/details/advancedeconomet00amem/page/60 60–61] |isbn=0-674-00560-0 |url-access=registration |url=https://archive.org/details/advancedeconomet00amem/page/60 }}</ref>

==另见==
* [[Lasso算法]]是统计学中另一种正则化方法。
* [[弹性网络正则化]]
* [[矩阵正则化]]

==注释==
{{notelist}}

==参考文献==
{{Reflist}}

==阅读更多==
*{{cite book |first=Marvin |last=Gruber |title=Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators |location=Boca Raton |publisher=CRC Press |year=1998 |isbn=0-8247-0156-9 |url=https://books.google.com/books?id=wmA_R3ZFrXYC }}
* {{cite book |last=Kress |first=Rainer |title=Numerical Analysis |location=New York |publisher=Springer |year=1998 |isbn=0-387-98408-9 |pages=86–90 |chapter=Tikhonov Regularization |chapter-url=https://books.google.com/books?id=Jv_ZBwAAQBAJ&pg=PA86 }}
* {{Cite book | last1=Press | first1=W. H. | last2=Teukolsky | first2=S. A. | last3=Vetterling | first3=W. T. | last4=Flannery | first4=B. P. | year=2007 | title=Numerical Recipes: The Art of Scientific Computing | edition=3rd | publisher=Cambridge University Press | location=New York | isbn=978-0-521-88068-8 | chapter=Section 19.5. Linear Regularization Methods | chapter-url=http://apps.nrbook.com/empanel/index.html#pg=1006}}
* {{cite book |first1=A. K. Md. Ehsanes |last1=Saleh |first2=Mohammad |last2=Arashi |first3=B. M. Golam |last3=Kibria |title=Theory of Ridge Regression Estimation with Applications |location=New York |publisher=John Wiley & Sons |year=2019 |isbn=978-1-118-64461-4 |url=https://books.google.com/books?id=v0KCDwAAQBAJ }}
* {{cite book |first=Matt |last=Taddy |title=Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions |chapter=Regularization |pages=69–104 |location=New York |publisher=McGraw-Hill |year=2019 |isbn=978-1-260-45277-8 |chapter-url=https://books.google.com/books?id=yPOUDwAAQBAJ&pg=PA69 }}

{{Authority control}}

[[Category:线性代数]]
[[Category:估计方法]]


[[Category:数学问题]]
[[Category:回归分析]]
[[Category:線性代數]]
[[Category:逆問題]]

2023年9月24日 (日) 15:11的版本

吉洪诺夫正则化得名于安德烈·尼古拉耶维奇·吉洪诺夫,是在自变量高度相关的情景下估计多元回归模型系数的方法。[1]它已被用于许多领域,包括计量经济学、化学和工程学。[2]吉洪诺夫正则化为非适定性问题正则化中最常见的方法。在統計學中,本方法被稱為脊迴歸岭回归ridge regression);在機器學習領域則稱為權重衰減權值衰減weight decay)。因為有不同的數學家獨立發現此方法,此方法又稱做吉洪諾夫-米勒法Tikhonov–Miller method)、菲利浦斯-圖米法Phillips–Twomey method)、受限線性反演constrained linear inversion method),或線性正規化linear regularization)。此方法亦和用在非線性最小二乘法英语Non-linear_least_squares萊文貝格-馬夸特方法相關。它对于缓解线性回归中的多重共线性问题特别有用,这常见于有大量参数的模型中。[3]总的来说,这种方法提高了参数估计的效率,但也有可容忍的偏差(见偏差-方差权衡)。[4]

该理论于1970年由Hoerl与Kennard发表在《技术计量学》上的文章《岭回归:非正交问题的偏估计》及《岭回归:非正交问题中的应用》中首次提出。[5][6][1] This was the result of ten years of research into the field of ridge analysis.[7]

岭回归是通过创建岭回归估计量(RR)实现的。当线性回归模型具有多重共线(高度相关)的自变量时,岭回归对于最小二乘估计的不精确性是一种可能的解决方案。这提供了更精确的岭参数估计,因为它的方差和均方估计量通常小于先前推导的最小二乘估计量。[8][2]

当求解超定问题(即)时, 矩阵 的协方差矩阵 奇异或接近奇异时,利用最小二乘方法求出的结果 会出现发散或对 不合理的逼近。为了解决这一问题,吉洪诺夫于1963年提出了利用正则化项修改最小二乘的代价函数的方法,修改后的代价函数如下:

式中 称为正则化参数[9],这种方法被称为吉洪诺夫正则化。

概览

在最简单的情况下,向主对角线添加正元素可以缓解近奇异矩量矩阵问题,减少条件数。类似于最小二乘估计量,简单岭估计量可定义为

其中是回归子,设计矩阵单位矩阵,岭参数则是矩量矩阵对角线的恒定位移。[10]可以证明这个估计量是约束最小二乘问题的解,可表达为拉格朗日形式:

其说明,不过是约束的拉格朗日乘数[11]通常要根据启发式准则选择,以便不完全满足约束。特别是在约束,即非约束约束(non-binding constrain),岭估计量退化为普通最小二乘法。下面讨论一种更通用的吉洪诺夫正则化方法。


历史

吉洪诺夫正则化是在许多不同背景下独立发明的。 安德烈·吉洪诺夫[12][13][14][15][16]和David L. Phillips最早使用了这种方法。[17] 有限维情形由采用统计方法的Arthur E. Hoerl[18]和Manus Foster完成,后者将其解释为克里金法滤子。[19]自Hoerl之后,这种方法在统计学文献中被称为岭回归,[20]以沿单位矩阵对角线的形状命名。


吉洪诺夫正则化

假设对已知矩阵和向量,我们希望找到向量使[需要解释]

标准方法是普通最小二乘法线性回归。[需要解释]但若没有满足方程或超过一个满足(即解不唯一),则待研究问题为不适定问题,普通最小二乘估计会导致方程组过定欠定。大多数现实世界的现象在前向问题中都具有低通滤性质[需要解释],其中映射到。因此在解决逆问题时,逆映射作为高通滤波器,具有放大噪声的不良趋势(特征值/奇异值在逆映射中最大,在正映射中最小)。此外,普通最小二乘隐式地消除了位于的零空间的的重建版本的每个元素,而非允许将模型用作的先验。 普通最小二乘寻找最小化残差平方和,可以紧凑地写作

其中是欧几里得范数。

为优先选择具有所需性质的特定解,可在最小化中包含正则化项:

其中吉洪诺夫矩阵需要适当选取,许多时候选为单位矩阵的标量倍数(),并优先考虑范数较小的解;这叫做L2正则化[21]这之外,若认为基础向量几乎连续,则可使用高通运算(如递推关系式或加权离散傅里叶变换)以实现平滑。这种正则化改进了问题条件,从而实现了直接的数值求解。显式解表示为,是这样得到:

正则化的效果可能因矩阵的尺度而异。若择,如(ATA)−1存在,则简化为非正则化最小二乘解。

除线性回归外,L2正则化还有许多应用场景,如逻辑斯谛回归支持向量机分类[22]以及矩阵分解。[23]

广义吉洪诺夫正则化

对于和数据误差的多元正态分布,c可以应用变量的变换来简化上述情况。等价地,可以寻求最小化

其中表示加权范数平方(比较马哈拉诺比斯距离)。在贝叶斯解释中,的逆协方差矩阵期望的逆协方差矩阵。吉洪诺夫矩阵为矩阵的分解(如科列斯基分解),可视作白化变换器。

这个推广问题有最优解,可以使用公式显式地写为

或等效地,当Q非空:

拉夫连季耶夫正则化

有时可以避免使用,这由米哈伊尔·拉夫连季耶夫指出。[24]例如,若是对称正定矩阵,即,则其逆可以用来在广义吉洪诺夫正则化中构造加权范数平方,则有最小化

或等价地由常数项,

.

该最小化问题有最优解,可以紧凑地写作公式

,

是广义吉洪诺夫问题的解,其中

拉夫连季耶夫正则化对原吉洪诺夫正则化有利,因为拉夫连季耶夫矩阵条件数比吉洪诺夫矩阵小。

希尔伯特空间中的正则化

典型的离散线性非适定问题由积分方程的离散化引起,可以在原始的无穷维背景中实现吉洪诺夫正则化。上面,我们可以将解释为希尔伯特空间上的紧算子的域与范围上的元素。自伴随有界可逆运算。


与奇异值分解和维纳滤波器的关系

这个最小二乘解可用奇异值分解以特殊的方式分析。给定奇异值分解

,奇异值,则吉洪诺夫正则解可表为

其中的对角值为

其余地方都是0。这表明吉洪诺夫参数对正则化问题条件数的影响。对于广义情况,可以使用广义奇异值分解推导出类似的表示。[25]

最后,其与维纳滤波有关:

其中维纳权为

确定吉洪诺夫因子

最佳正则化参数一般未知,在实践中常常临时确定。一种可能的方法依赖于下面描述的贝叶斯解释。其他方法包括偏差原理、交叉验证、L曲线法、[26]约束最大似然法和无偏预测风险估计。Grace Wahba证明,这种最优参数用留一交叉验证最小[27][28]

其中残差平方和自由度

用前面的SVD分解,可以简化上述表达式:

与概率表述的关系

逆问题的概率公式引入了(当所有不确定量都为正态量时)表示模型参数先验不确定性的协方差矩阵,以及表示观测参数不确定性的协方差矩阵[29]当它们都是对角各向同性矩阵(),且,则逆理论方程简化为上述方程,且

贝叶斯解释

虽然选择这个正则化问题的解可能看起来是人为的,而且矩阵似乎相当武断,但从贝叶斯的角度来看,这个过程是合理的。[30]注意,不适定问题必须引入额外假设才能得到唯一解。在统计学中,先验分布有时被认为是多元正态分布。为简单起见,此处做出以下假设:均值为零;组分独立;组分标准差均为。数据也受误差影响,并且假设中的误差独立,均值为零,标准差为。在这些假设下,根据贝叶斯定理,吉洪诺夫正则化解是给定数据和的先验分布的最可能的解。[31]

正态性假设被同方差和无关误差假设代替,且若假设均值仍是零,则高斯-马尔可夫定理意味着解是最小 无偏线性估计量[32]

另见

注释

参考文献

  1. ^ 1.0 1.1 Hilt, Donald E.; Seegrist, Donald W. Ridge, a computer program for calculating ridge regression estimates. 1977. doi:10.5962/bhl.title.68934. [页码请求]
  2. ^ 2.0 2.1 Gruber, Marvin. Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators. CRC Press. 1998: 2. ISBN 978-0-8247-0156-7. 
  3. ^ Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 205–206. ISBN 0-262-61183-X. 
  4. ^ Gruber, Marvin. Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. 1998: 7–15. ISBN 0-8247-0156-9. 
  5. ^ Hoerl, Arthur E.; Kennard, Robert W. Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics. 1970, 12 (1): 55–67. JSTOR 1267351. doi:10.2307/1267351. 
  6. ^ Hoerl, Arthur E.; Kennard, Robert W. Ridge Regression: Applications to Nonorthogonal Problems. Technometrics. 1970, 12 (1): 69–82. JSTOR 1267352. doi:10.2307/1267352. 
  7. ^ Beck, James Vere; Arnold, Kenneth J. Parameter Estimation in Engineering and Science. James Beck. 1977: 287. ISBN 978-0-471-06118-2. 
  8. ^ Jolliffe, I. T. Principal Component Analysis. Springer Science & Business Media. 2006: 178. ISBN 978-0-387-22440-4. 
  9. ^ Tikhonov A.N. Solution of Incorrectly Formulated Problems and the Regularization Method. Soviet Mathematics Doklady. 1963, 4: 1035–1038. 
  10. ^ 关于实践中的选择,参Khalaf, Ghadban; Shukur, Ghazi. Choosing Ridge Parameter for Regression Problems. Communications in Statistics – Theory and Methods. 2005, 34 (5): 1177–1182. S2CID 122983724. doi:10.1081/STA-200056836. 
  11. ^ van Wieringen, Wessel. Lecture notes on ridge regression. 2021-05-31. arXiv:1509.09169可免费查阅 [stat.ME]. 
  12. ^ Tikhonov, Andrey Nikolayevich. Об устойчивости обратных задач [On the stability of inverse problems]. Doklady Akademii Nauk SSSR. 1943, 39 (5): 195–198. (原始内容存档于2005-02-27). 
  13. ^ Tikhonov, A. N. О решении некорректно поставленных задач и методе регуляризации. Doklady Akademii Nauk SSSR. 1963, 151: 501–504. . Translated in Solution of incorrectly formulated problems and the regularization method. Soviet Mathematics: 1035–1038. 
  14. ^ Tikhonov, A. N.; V. Y. Arsenin. Solution of Ill-posed Problems. Washington: Winston & Sons. 1977. ISBN 0-470-99124-0. 
  15. ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, V. V.; Yagola, Anatolij Grigorevic. Numerical Methods for the Solution of Ill-Posed Problems. Netherlands: Springer Netherlands. 30 June 1995 [9 August 2018]. ISBN 079233583X. 
  16. ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic. Nonlinear ill-posed problems. London: Chapman & Hall. 1998 [9 August 2018]. ISBN 0412786605. 
  17. ^ Phillips, D. L. A Technique for the Numerical Solution of Certain Integral Equations of the First Kind. Journal of the ACM. 1962, 9: 84–97. S2CID 35368397. doi:10.1145/321105.321114. 
  18. ^ Hoerl, Arthur E. Application of Ridge Analysis to Regression Problems. Chemical Engineering Progress. 1962, 58 (3): 54–59. 
  19. ^ Foster, M. An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion. Journal of the Society for Industrial and Applied Mathematics. 1961, 9 (3): 387–392. doi:10.1137/0109031. 
  20. ^ Hoerl, A. E.; R. W. Kennard. Ridge regression: Biased estimation for nonorthogonal problems. Technometrics. 1970, 12 (1): 55–67. doi:10.1080/00401706.1970.10488634. 
  21. ^ Ng, Andrew Y. Feature selection, L1 vs. L2 regularization, and rotational invariance (PDF). Proc. ICML. 2004. 
  22. ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research. 2008, 9: 1871–1874. 
  23. ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo. Online nonnegative matrix factorization with robust stochastic approximation. IEEE Transactions on Neural Networks and Learning Systems. 2012, 23 (7): 1087–1099. PMID 24807135. S2CID 8755408. doi:10.1109/TNNLS.2012.2197827. 
  24. ^ Lavrentiev, M. M. Some Improperly Posed Problems of Mathematical Physics. New York: Springer. 1967. 
  25. ^ Hansen, Per Christian. Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion 1st. Philadelphia, USA: SIAM. Jan 1, 1998. ISBN 9780898714036. 
  26. ^ P. C. Hansen, "The L-curve and its use in the numerical treatment of inverse problems", [1]
  27. ^ Wahba, G. Spline Models for Observational Data. CBMS-NSF Regional Conference Series in Applied Mathematics (Society for Industrial and Applied Mathematics). 1990. Bibcode:1990smod.conf.....W. 
  28. ^ Golub, G.; Heath, M.; Wahba, G. Generalized cross-validation as a method for choosing a good ridge parameter (PDF). Technometrics. 1979, 21 (2): 215–223. doi:10.1080/00401706.1979.10489751. 
  29. ^ Tarantola, Albert. Inverse Problem Theory and Methods for Model Parameter Estimation 1st. Philadelphia: Society for Industrial and Applied Mathematics (SIAM). 2005 [2018-08-09]. ISBN 0898717922. 
  30. ^ Greenberg, Edward; Webster, Charles E., Jr. Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. 1983: 207–213. ISBN 0-471-09077-8. 
  31. ^ Vogel, Curtis R. Computational methods for inverse problems. Philadelphia: Society for Industrial and Applied Mathematics. 2002. ISBN 0-89871-550-4. 
  32. ^ Amemiya, Takeshi. Advanced Econometrics需要免费注册. Harvard University Press. 1985: 60–61. ISBN 0-674-00560-0. 

阅读更多