统计学习理论

统计学习理论（英语：Statistical learning theory），一种机器学习的架构，根据统计学与泛函分析（Functional Analysis）而建立。统计学习理论基于资料（data），找出预测性函数，之后解决问题。支持向量机（Support Vector Machine）的理论基础来自于统计学习理论。

形式定义

令 $X$ 为所有可能的输入组成的向量空间， $Y$ 为所有可能的输出组成的向量空间。统计学习理论认为，积空间 $Z=X\times Y$ 上存在某个未知的概率分布 $p(z)=p({\vec {x}},y)$ 。训练集由这个概率分布中的 $n$ 个样例构成，并用 $S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}$ 表示。每个 ${\vec {x}}_{i}$ 都是训练数据的一个输入向量，而 $y_{i}$ 则是对应的输出向量。

损失函数

损失函数的选择是机器学习算法所选的函数 $f_{S}$ 中的决定性因素。损失函数也影响着算法的收敛速率。损失函数的凸性也十分重要。^[1]

根据问题是回归问题还是分类问题，我们可以使用不同的损失函数。

回归问题

回归问题中最常用的损失函数是平方损失函数（也被称为L2-范数)。类似的损失函数也被用在普通最小二乘回归。其形式是：

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

另一个常见的损失函数是绝对值范数（L1-范数）：

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

分类问题

某种程度上说0-1指示函数是分类问题中最自然的损失函数。它在预测结果与真实结果相同时取0，相异时取1。对于 $Y=\{-1,1\}$ 的二分类问题，这可以表示为：

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

其中 $\theta$ 为单位阶跃函数。

正则化

机器学习的一大常见问题是过拟合。由于机器学习是一个预测问题，其目标并不是找到一个与（之前观测到的）数据最拟合的的函数，而是寻找一个能对未来的输入作出最精确预测的函数。经验风险最小化有过拟合的风险：找到的函数完美地匹配现有数据但并不能很好地预测未来的输出。

过拟合的常见表现是不稳定的解：训练数据的一个小的扰动会导致学到的函数的巨大波动。可以证明，如果解的稳定性可以得到保证，那么其可推广性和一致性也同样能得到保证。^[2]^[3] 正则化可以解决过拟合的问题并增加解的稳定性。

正则化可以通过限制假设空间 ${\mathcal {H}}$ 来完成。一个常见的例子是把 ${\mathcal {H}}$ 限制为线性函数：这可以被看成是把问题简化为标准设计的线性回归。 ${\mathcal {H}}$ 也可以被限制为 $p$ 次多项式，指数函数，或L1上的有界函数。对假设空间的限制能防止过拟合的原因是，潜在的函数的形式得到了限制，因此防止了那些能给出任意接近于0的经验风险的复杂函数。

一个正则化的样例是吉洪诺夫正则化，即最小化如下损失函数

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})+\gamma \|f\|_{\mathcal {H}}^{2}

其中正则化参数 $\gamma$ 为一个固定的正参数。吉洪诺夫正则化保证了解的存在性、唯一性和稳定性。^[4]

^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076
^ Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.
^ Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.
^ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 （页面存档备份，存于互联网档案馆）

[1] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076

[2] Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280.

[3] Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193.

[4] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 （页面存档备份，存于互联网档案馆）

[1]

[2]

[3]

[4]

查论编主要的数学领域
历史纲要（英语：Outline of mathematics）列表（英语：Lists of mathematics topics）符号表
数学基础	范畴论集合论数理逻辑数学哲学
代数	抽象交换群论初等代数线性代数多重线性代数泛代数
数学分析	微积分实变函数复变函数微分方程泛函分析调和分析傅立叶分析几何分析
离散数学	组合数学图论序理论博弈论
几何学	代数几何解析几何微分几何离散几何学欧几里得几何非欧几里得几何有限几何学
数论	算术代数数论解析数论几何数论算术几何丢番图几何
拓扑学	点集拓扑代数拓扑微分拓扑几何拓扑
统计学	测度与概率数理统计学数据科学统计推断回归分析统计学习理论机器学习人工智能数据结构与算法
计算数学	计算机科学计算理论数值分析最优化计算机代数
应用数学	控制论信息论计算化学数理生物学数理经济学计量经济学数理金融学数学心理学数学物理学生物统计学
其它	娱乐数学数学与艺术（英语：Mathematics and art）数学教育
注释	数学的领域也可根据“MSC分类标准”或“中国学科分类国家标准”进行分类。
分类主题共享资源专题