估計理論

維基百科,自由的百科全書
前往: 導覽搜尋

估計理論統計學信號處理中的一個分支,主要是通過測量或經驗數據來估計機率分布參數的數值。這些參數描述了實質情況或實際對象,它們能夠回答估計函數提出的問題。

例如,估計投票人總體中,給特定候選人投票的人的比例。這個比例是一個不可觀測的參數,因為投票人總體很大;估計值建立在投票者的一個小的隨機採樣上。

又如,雷達的目的是物體(飛機、船等)的定位。這種定位是通過分析收到的回聲(回波)來實現的,定位提出的問題是「飛機在哪裡?」為了回答這個問題,必須估計飛機到雷達之間的距離。如果雷達的絕對位置是已知的,那麼飛機的絕對位置也是可以確定的。

在估計理論中,通常假定信息隱藏在包含雜訊信號中。噪聲增加了不確定性,如果沒有不確定性,那麼也就沒有必要估計了。

使用估計理論的領域[編輯]

有非常多的領域使用參數估計理論。這些領域包括(當然不局限於以下列出的領域):

測量參數包含噪聲或者其他不確定性。通過統計機率,可以求得最優化的解,用來從數據中提取儘可能多的信息

估計過程[編輯]

估計理論的全部目的都是獲取一個估計函數,最好是一個可以實現的估計函數。估計函數輸入測量數據,輸出相應參數的估計。

我們通常希望估計函數能最優,一個最優的估計意味著所有的信息都被提取出來了;如果還有還有信息沒有提取出來,那就意味著它不是最優的。

一般來說,求估計函數需要三步:

  • 為了實現一個預測單個或者多個參數的所期望的估計器,首先需要確定系統的模型。這個模型需要將需要建模的過程以及不確定性和和噪聲融合到一起,這個模型將描述參數應用領域的物理場景。
  • 在確定模型之後,需要確定估計器的限制條件。這些限制條件可以通過如Cramér-Rao不等式這樣的方法找到。
  • 下一步,需要開發一個估計器或者應用一個已知的對於模型有效的估計器。這個估計器需要根據限制條件進行測試以確定它是否是最優估計器,如果是的話,它就是最好的估計器。
  • 最後,在估計器上運行試驗或者模擬以測試性能。

當實現一個估計器之後,實際的數據有可能證明推導出估計器的模型是不正確的,這樣的話就需要重複上面的過程重新尋找估計器。不能實現的估計器需要拋棄,然後開始一個新的過程。總的來說,估計器根據實際測量的數據預測物理模型的參數。

基礎[編輯]

為了建立一個模型,需要知道幾項統計「因素」。為了保證預測在數學上是可以追蹤的而不是僅僅基於「內心感受」來說這是必需的。

第一個是從大小為 N隨機矢量中取出的統計採樣,將它們放到一個矢量中,

\mathbf{x} = \begin{bmatrix} x[0] \\ x[1] \\ \vdots \\ x[N-1] \end{bmatrix}.

第二,有相應的 M 參數

\mathbf{\theta} = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \vdots \\ \theta_M \end{bmatrix},

它需要根據機率密度函數(pdf)或者機率聚集函數(:en:probability mass function)(pmf)建立

p(\mathbf{x} | \mathbf{\theta}).

參數本身還可能有一個機率分布(Bayesian statistics),需要定義epistemic probability

\pi( \mathbf{\theta}).

模型形成之後的目標就是預測參數,通常表示為 \hat{\mathbf{\theta}},其中「hat」表示預測值。

一個普通的估計器是最小均方誤差(MMSE)估計器,它利用了參數估計值與實際值之間的誤差

\mathbf{e} = \hat{\mathbf{\theta}} - \mathbf{\theta}

作為優化的基礎。在最小均方誤差估計器中誤差進行取平方、最小化。

估計函數(估計子)[編輯]

以下是一些相關的估計函數以及相關的主題

例子: 高斯白噪聲中的直流增益[編輯]

讓我們來看一個接收到的 N獨立採樣點離散信號 x[n] , 它由一個直流增益 A已知方差\sigma^2 (例如,\mathcal{N}(0, \sigma^2))的疊加白噪聲 w[n] 組成。

由於方差已經知道,所以僅有的未知參數就是 A

於是信號的模型是

x[n] = A + w[n] \quad n=0, 1, \dots, N-1

兩個可能的估計器是:

這兩個估計器都有一個平均值 A,這可以通過代如每個估計器的期望得到

\mathrm{E}\left[\hat{A}_1\right] = \mathrm{E}\left[ x[0] \right] = A


\mathrm{E}\left[ \hat{A}_2 \right]
=
\mathrm{E}\left[ \frac{1}{N} \sum_{n=0}^{N-1} x[n] \right]
=
\frac{1}{N} \left[ \sum_{n=0}^{N-1} \mathrm{E}\left[ x[n] \right] \right]
=
\frac{1}{N} \left[ N A \right]
=
A

在這一點上,這兩個估計器看起來是一樣的。但是,當比較方差部分的時候它們之間的不同就很明顯了。

\mathrm{var} \left( \hat{A}_1 \right) = \mathrm{var} \left( x[0] \right) = \sigma^2


\mathrm{var} \left( \hat{A}_2 \right)
=
\mathrm{var} \left( \frac{1}{N} \sum_{n=0}^{N-1} x[n] \right)
=
\frac{1}{N^2} \left[ \sum_{n=0}^{N-1} \mathrm{var} (x[n]) \right]
=
\frac{1}{N^2} \left[ N \sigma^2 \right]
=
\frac{\sigma^2}{N}

看起來採樣平均是一個更好的估計器,因為方差部分 N \to \infty 趨向於 0。

最大似然估計[編輯]

使用最大似然估計繼續上面的例子,噪聲在一個採樣點 w[n]機率密度函數(pdf)是

p(w[n]) = \frac{1}{\sigma \sqrt{2 \pi}} \exp\left(- \frac{1}{2 \sigma^2} w[n]^2 \right)

這樣 x[n] 的機率變為(x[n] 可以認為是 \mathcal{N}(A, \sigma^2)

p(x[n]; A) = \frac{1}{\sigma \sqrt{2 \pi}} \exp\left(- \frac{1}{2 \sigma^2} (x[n] - A)^2 \right)

由於相互獨立,\mathbf{x} 的機率變為


p(\mathbf{x}; A)
=
\prod_{n=0}^{N-1} p(x[n]; A)
=
\frac{1}{\left(\sigma \sqrt{2\pi}\right)^N}
\exp\left(- \frac{1}{2 \sigma^2} \sum_{n=0}^{N-1}(x[n] - A)^2 \right)

機率密度函數取自然對數


\ln p(\mathbf{x}; A)
=
-N \ln \left(\sigma \sqrt{2\pi}\right)
- \frac{1}{2 \sigma^2} \sum_{n=0}^{N-1}(x[n] - A)^2

於是最大似然估計器是

\hat{A} = \arg \max \ln p(\mathbf{x}; A)

對數最大似然函數取一階 導數


\frac{\partial}{\partial A} \ln p(\mathbf{x}; A)
=
\frac{1}{\sigma^2} \left[ \sum_{n=0}^{N-1}(x[n] - A) \right]
=
\frac{1}{\sigma^2} \left[ \sum_{n=0}^{N-1}x[n] - N A \right]

並且將它賦值為0


0
=
\frac{1}{\sigma^2} \left[ \sum_{n=0}^{N-1}x[n] - N A \right]
=
\sum_{n=0}^{N-1}x[n] - N A

這就得到最大似然估計器


\hat{A} = \frac{1}{N} \sum_{n=0}^{N-1}x[n]

它是一個簡單的採樣平均。

從這個例子中,我們發現對於帶有固定未知直流增益的AWGN的 N 個採樣點來說採樣平均就是最大似然估計器。

Cramér-Rao 下限[編輯]

為了找到採樣平均估計器的Cramér-Rao下限(CRLB),需要找到Fisher information數


\mathcal{I}(A)
=
\mathrm{E}
\left(
 \left[
  \frac{\partial}{\partial\theta} \ln p(\mathbf{x}; A)
 \right]^2
\right)
=
-\mathrm{E}
\left[
 \frac{\partial^2}{\partial\theta^2} \ln p(\mathbf{x}; A)
\right]

從上面得到


\frac{\partial}{\partial A} \ln p(\mathbf{x}; A)
=
\frac{1}{\sigma^2} \left[ \sum_{n=0}^{N-1}x[n] - N A \right]

取二階導數


\frac{\partial^2}{\partial A^2} \ln p(\mathbf{x}; A)
=
\frac{1}{\sigma^2} (- N)
=
\frac{-N}{\sigma^2}

發現負的期望值是無關緊要的(trivial),因為它現在是一個確定的常數


-\mathrm{E}
\left[
 \frac{\partial^2}{\partial A^2} \ln p(\mathbf{x}; A)
\right]
=
\frac{N}{\sigma^2}

最後,將Fisher information代入


\mathrm{var}\left( \hat{A} \right)
\geq
\frac{1}{\mathcal{I}}

得到


\mathrm{var}\left( \hat{A} \right)
\geq
\frac{\sigma^2}{N}

將這個值與前面確定的採樣平均的變化比較顯示對於所有的 NA 來說採樣平均都是等於Cramér-Rao下限。

採樣平均除了是最大似然估計器之外還是最小變化無偏估計器(MVUE)。

這個直流增益 + WGN 的例子是 Kay 的 統計信號處理基礎中一個例子的再現。

相關書籍[編輯]

參見[編輯]