LogSumExp

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

LogSumExp(LSE,也稱RealSoftMax[1]或多變數softplus函式是一個平滑最大值——一個對極值函式的光滑近似,主要用在機器學習演算法中。[2] 其定義為參數的指數的和的對數

性質[編輯]

LogSumExp函式的定義域實數空間英語real coordinate space),共域是實數線)。 它是對極值函式的近似,同時有如下的界限:

第一個不等式以外的情況是嚴格成立的,第二個不等式僅在所有元素相等時取等號。 (證明:令,則。將不等式取對數即可。)

另外,我們可以將不等式縮放到更緊的界限。考慮函式。然後,

(證明:將上式替換,得到

由於

最後,同除得到結果。)

此外,如果我們乘上一個負數,可以得到一個與有關的不等式:

LogSumExp函式是凸函式,因此在定義域上嚴格遞增[3] (但並非處處都是嚴格凸的[4]。)

偏導數為:

表明LogSumExp的梯度softmax函式

LogSumExp的凸共軛負熵英語negative entropy

對數體中的log-sum-exp計算技巧[編輯]

當通常的算術計算在對數尺度上進行時,經常會遇到LSE函式,例如對數機率[5]

類似於線性尺度中的乘法運算變成對數尺度中的簡單加法,線性尺度中的加法運算變成對數尺度中的LSE:

使用對數體計算的一個常見目的是在使用有限精度浮點數直接表示(線上性域中)非常小或非常大的數字時提高精度並避免溢位問題.[6]

不幸的是,在一些情況下直接使用 LSE 依然會導致上溢/下溢問題,必須改用以下等效公式(尤其是當上述「最大」近似值的準確性不夠時)。 因此,IT++等很多數學庫都提供了LSE的預設常式,並在內部使用了這個公式。

其中

一個嚴格凸的log-sum-exp型函式[編輯]

LSE是凸的,但不是嚴格凸的。我們可以通過增加一項為零的額外參數來定義一個嚴格凸的log-sum-exp型函式[7]

This function is a proper Bregman generator (strictly convex and differentiable). It is encountered in machine learning, for example, as the cumulant of the multinomial/binomial family.

熱帶分析英語tropical analysis中,這是對數半環英語log semiring的和。

參見[編輯]

參考資料[編輯]

  1. ^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. Dive into Deep Learning, Chapter 3 Exercises. www.d2l.ai. [27 June 2020]. (原始內容存檔於2022-03-31). 
  2. ^ Nielsen, Frank; Sun, Ke. Guaranteed bounds on the Kullback-Leibler divergence of univariate mixtures using piecewise log-sum-exp inequalities. Entropy. 2016, 18 (12): 442. Bibcode:2016Entrp..18..442N. S2CID 17259055. arXiv:1606.05850可免費查閱. doi:10.3390/e18120442可免費查閱. 
  3. ^ El Ghaoui, Laurent. Optimization Models and Applications. 2017 [2022-10-16]. (原始內容存檔於2020-12-19). 
  4. ^ convex analysis - About the strictly convexity of log-sum-exp function - Mathematics Stack Exchange. stackexchange.com. 
  5. ^ McElreath, Richard. Statistical Rethinking. OCLC 1107423386. 
  6. ^ Practical issues: Numeric stability.. CS231n Convolutional Neural Networks for Visual Recognition. [2022-10-16]. (原始內容存檔於2022-12-06). 
  7. ^ Nielsen, Frank; Hadjeres, Gaetan. Monte Carlo Information Geometry: The dually flat case. 2018. Bibcode:2018arXiv180307225N. arXiv:1803.07225可免費查閱.