戴爾指數(英語:Theil Index)又稱為泰爾指數[1],是一個衡量經濟不平等[2]的統計量。它也曾經用來衡量其他社會不平等現象,如種族隔離[3][4][5]。
戴爾指數主要是利用資訊理論中的資訊熵的概念導出的。戴爾指數等於資訊冗餘,也就是資料最大可能資訊熵減去觀測到的資訊熵,它是廣義熵指數的特例,可以被視為冗餘度、單樣性、不平等、非隨機性和可壓縮性的度量。[5]
戴爾指數最早由荷蘭鹿特丹伊拉斯姆斯大學的計量經濟學家亨利·戴爾(Henri Theil)所提出。[5]
假設一個人口為N的群體,其收入分別為xi (i = 1,...,N),則它的戴爾指數T定義為[6]:
而戴爾指數L則定義為
其中為第個人的收入,為平均收入,為人口數量。加總符號中的第一項可以理解為個人在總收入中所佔的比例,第二項為該個人相對於均值的收入。
如果收入分佈是個離散分佈函數 fk (k = 0,...,W),其中fk是收入為k的人口比例,而W = Nμ 代表總收入,可以得知 。
它的戴爾指數T定義為:
這裏的一樣是收入平均
其中應注意到收入k是一個整數,k=1代表最小收入增量(比如新台幣1元)。
如果收入分佈是個連續分佈函數f(k),k取值0到無窮,其中f(k) dk 是收入為k 到 k + dk的人口數量,那戴爾指數T定義為:
其中平均為:
一些常見連續概率分佈的戴爾指數如下表所示:
收入分佈函數 |
PDF(x) (x ≥ 0) |
戴爾指數(納特)
|
狄拉克δ函數 |
|
0
|
連續型均勻分佈
|
|
|
指數分佈
|
|
|
對數正態分佈
|
|
|
帕累托分佈
|
|
(α>1)
|
卡方分佈
|
|
|
伽瑪分佈
|
|
|
韋伯分佈
|
|
|
如果每一個人都有相同的收入,即等於均值,則指數為零。如果某個個人擁有所有的收入,則指數為。TT 除以 可以將方程歸一化到0到1的範圍,但這樣違反獨立公理: 並不符合衡量不平等的標準。
戴爾指數導自克勞德·夏農的信息熵,他的一般數學形式為:
其中 是從人群裏找到的概率。是玻爾茲曼常數。在信息論中,當信息以二進制數字給出時,並且對數基底為2。在物理學和戴爾指數的計算中,選擇自然對數作為對數基底。當替換成人均收入時,需要除以總收入達到歸一化。那可以導出,觀察到的信息熵為:
設為戴爾指數,為夏農熵,則有
其中,ln(N)是理論最大熵。香濃根據事件發生概率導出的其熵測度。它可以用戴爾係數解釋為自某個特定個人處隨機取得一塊錢的概率。並與其第一項,即總收入中個人所佔份額相同。
符號 |
信息論 |
戴爾指數 TT
|
|
字符數 |
人口數
|
|
某個特定字符 |
某個特定人
|
|
第i個字符 character |
第i個人的收入
|
|
總字符數 |
總收入
|
|
未被使用的資訊空間 |
未使用潛在價格機制
|
戴爾指數的一個優點是它是某個子群體中不平等的加權和[1]。例如,美國國內的不平等就是每個州的不平等的加權和,由該州收入相對於國家總收入的比值來加權。
如果人口被劃分為個子群體, 為群體 的收入比例,為該子群體的戴爾指數,而 為子群體 的平均收入,則戴爾指數為
因此,我們可以說某個特定群體給總體「貢獻了」一定數量的不平等。
另外一個被廣泛使用的不平等度量為堅尼系數,該係數對於很多人來說由於基於勞倫茨曲線而非常直觀。但是它卻沒有戴爾指數容易分解。