参数统计

维基百科,自由的百科全书
跳到导航 跳到搜索

参数统计统计学的一个分支,它假设样本数据来自总体,而总体可以通过具有固定参数集的概率分布进行充分建模。 [1]相反,非参数模型的确切区别在于其参数集(或机器学习中的特征集 )不是固定的,如果收集到新的相关信息,则该参数集可能会增加甚至减少。 [2]

大多数著名的统计方法都是参数化的。 [3]关于非参数(和半参数)模型, 戴维·考克斯爵士说:“这些模型通常较少涉及结构和分布形式的假设,但通常都包含有关独立性的强有力假设”。 [4]

示例[编辑]

正态分布族都具有相同的一般形态,并可以通过均值和标准差进行参数化 。这意味着,如果均值和标准差已知,并且分布是正态的,则任何将来观察到的给定范围内的概率都是已知的。

假设有一个存在99个测试分数的样本,平均值为100,标准差为1。如果假设所有99个测试分数都是从正态分布中随机观察到的,那么我们预测第100个测试分数有1%的概率将高于102.33(即平均值加2.33标准偏差)。给定99个来自相同正态分布的独立观测值,可使用参数统计方法计算上述标准偏差值。

对同一事物的非参数估计是前99个分数中的最大值。不需要假设考试分数的分布情况就可以推断出,在我们进行考试之前,最高分数会出现在前100个分数中。因此,第100个分数有1%的可能性高于之前的99个分数。

历史[编辑]

RA Fisher在1925年的《 Statistical Methods for Research Workers 》中提到了参数统计,这为现代统计奠定了基础。

参考文献[编辑]

  1. ^ Geisser, S., Modes of Parametric Statistical Inference, John Wiley & Sons, 2006 
  2. ^ Murphy, Kevin, Machine Learning: A probabilistic perspective, MIT Press: 16, 2012 
  3. ^ Cox, D. R., Principles of Statistical Inference, Cambridge University Press, 2006 
  4. ^ Cox 2006