莫蘭指數

統計學中，莫蘭指數（Moran's I）是Patrick Alfred Pierce Moran提出的一種空間自相關度量。^[1]^[2]空間自相關即空間中鄰近的位置之間存在相關性。空間自相關比一維自相關更複雜，因為空間相關性是多維的（即空間的二維或三維）和多方向的。

全局莫蘭指數[編輯]

全局莫蘭指數（ $I$ ）是對空間數據的整體聚集的度量，其定義如下：

I={\frac {N\sum _{i=1}^{N}\sum _{j=1}^{N}w_{ij}(x_{i}-{\bar {x}})(x_{j}-{\bar {x}})}{W\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}}

其中：

$N$ 是空間單元的個數；
$i$ 和 $j$ 是兩個空間單元的索引編號；
$x$ 是相關變量； ${\bar {x}}$ 是 $x$ 的平均值；
$w_{ij}$ 是空間單元 $i$ 和 $j$ 之間關係的空間權重，主對角線上取值為0（即 $w_{ii}=0$ ）；
$W$ 是所有 $w_{ij}$ 的總和。

定義空間權重矩陣[編輯]

$I$ 的值可能很大程度上依賴空間權重矩陣 ${w ij}$ 中的假設。之所以需要該矩陣，是因為在處理空間自相關和建立空間相互作用模型時，需要約束予以考慮的鄰居的數量。這與托布勒的地理學第一定律有關，該定律指出，所有事物都是相關的，但更接近的事物更相關——換句話說，該定律表明空間中存在距離衰減，儘管所有觀測值都對其他觀測值有影響，但在某個距離閾值後，其影響已經微弱得可以忽略不計。

其思路是構建一個矩陣，以準確地反映對討論的特定空間現象的假設。一種常見的做法是，如果兩個空間單元是鄰居，則權重為1，否則為0（但「鄰居」的定義可能會有所不同）。另一種常見的方法可能是給 $k$ 個最近的鄰居賦予1的權重，其他為0。還有一種方法是使用距離衰減函數來分配權重。有時，共邊的長度用於為鄰居分配不同的權重。空間權重矩陣的選擇應以研究的相關現象的理論為指導。 $I$ 的值對權重非常敏感，並且會影響對現象的結論，尤其是在使用距離時。

期望值[編輯]

在不存在空間自相關的虛無假設下，莫蘭指數的期望值為：

E(I)={\frac {-1}{N-1}}

對應該期望值的零分佈是 $x$ 輸入遵循隨機均勻地選取的排列 $\pi$ 。

在大樣本量下（即 $N$ 趨於無窮大時），期望值接近於零。

其方差等於

\operatorname {Var} (I)={\frac {NS_{4}-S_{3}S_{5}}{(N-1)(N-2)(N-3)W^{2}}}-(E(I))^{2}

其中

S_{1}={\frac {1}{2}}\sum _{i}\sum _{j}(w_{ij}+w_{ji})^{2}

S_{2}=\sum _{i}\left(\sum _{j}w_{ij}+\sum _{j}w_{ji}\right)^{2}

S_{3}={\frac {N^{-1}\sum _{i}(x_{i}-{\bar {x}})^{4}}{(N^{-1}\sum _{i}(x_{i}-{\bar {x}})^{2})^{2}}}

S_{4}=(N^{2}-3N+3)S_{1}-NS_{2}+3W^{2}

S_{5}=(N^{2}-N)S_{1}-2NS_{2}+6W^{2}

^[3]

$I$ 的值通常在−1到+1之間。顯着低於 $-1/(N -1)$ 的值表示空間負相關（分散），顯着高於 $-1/(N -1)$ 的值表示空間正相關（集聚）。對於統計假設檢定，莫蘭指數的值可以轉換為Z-分數。

莫蘭指數與吉爾里C數（英語：Geary's C）成負相關，但並不完全等同。莫蘭指數是全局空間自相關的度量，而吉爾里C數對局部空間自相關更敏感。

局部莫蘭指數[編輯]

全局空間自相關分析只能得到一個概括整個研究區域的一個統計量。換句話說，全局分析假設空間是相對均質的。若該假設不成立，那麼只有一個統計數據是意義不大，因為統計數據在空間上應該是不同的。

而且，即使不存在全局自相關或聚類，我們仍然可能通過局部空間自相關分析，在局部層面上找到聚類。「空間關聯的局部指標」（local indicators of spatial association，LISA）利用莫蘭指數是叉積總和這一事實，通過計算每個空間單元的局部莫蘭指數並評估每個 $I i$ 的統計顯著性來評估這些個體單元的聚類。局部莫蘭指數最早由盧卡·安瑟林（英語：Luc Anselin）於1995年提出。^[4]由全局莫蘭指數的等式可導出：

I_{i}={\frac {x_{i}-{\bar {x}}}{m_{2}}}\sum _{j=1}^{N}w_{ij}(x_{j}-{\bar {x}})

其中：

m_{2}={\frac {\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}{N}}

因此，

I=\sum _{i=1}^{N}{\frac {I_{i}}{N}}

$I$ 為衡量全局空間自相關性的全局莫蘭指數， $I i$ 為局部莫蘭指數， $N$ 為地圖中分析單元的總數。

空間關聯的局部指標可以用GeoDa軟件來計算，其中就包含了局部莫蘭指數的計算功能。^[5]

應用[編輯]

莫蘭指數廣泛應用於地理學和地理資訊科學領域。例子有：

健康變量的地理差異分析^[6]；
表徵公共水中鋰濃度對心理健康的影響^[7]；
方言學中，用來衡量區域語言變異的顯著性^[8]；
地貌學研究中，用來定義有意義的地形分割的目標函數^[9]。

參見[編輯]

參考文獻[編輯]

^ Moran, P. A. P. Notes on Continuous Stochastic Phenomena. Biometrika. 1950, 37 (1): 17–23. JSTOR 2332142. PMID 15420245. doi:10.2307/2332142.
^ Li, Hongfei; Calder, Catherine A.; Cressie, Noel. Beyond Moran's I: Testing for Spatial Dependence Based on the Spatial Autoregressive Model. Geographical Analysis. 2007, 39 (4): 357–375. doi:10.1111/j.1538-4632.2007.00708.x.
^ Cliff and Ord (1981), Spatial Processes, London
^ Anselin, Luc. Local Indicators of Spatial Association—LISA. Geographical Analysis. 1995, 27 (2): 93–115 [2022-06-28]. doi:10.1111/j.1538-4632.1995.tb00338.x. （原始內容存檔於2022-07-12）.
^ Anselin, Luc. Exploring Spatial Data with GeoDa^TM: A Workbook (PDF). Spatial Analysis Laboratory: 138. 2005 [2022-06-28]. （原始內容 (PDF)存檔於2021-06-14）.
^ Getis, Arthur. The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis. 3 Sep 2010, 24 (3): 189–206. doi:10.1111/j.1538-4632.1992.tb00261.x .
^ Helbich, M; Leitner, M; Kapusta, ND. Geospatial examination of lithium in drinking water and suicide mortality. Int J Health Geogr. 2012, 11 (1): 19. PMC 3441892 . PMID 22695110. doi:10.1186/1476-072X-11-19.
^ Grieve, Jack. A regional analysis of contraction rate in written Standard American English. International Journal of Corpus Linguistics. 2011, 16 (4): 514–546. doi:10.1075/ijcl.16.4.04gri.
^ Alvioli, M.; Marchesini, I.; Reichenbach, P.; Rossi, M.; Ardizzone, F.; Fiorucci, F.; Guzzetti, F. Automatic delineation of geomorphological slope units with r.slopeunits v1.0 and their optimization for landslide susceptibility modeling. Geoscientific Model Development. 2016, 9: 3975–3991. doi:10.5194/gmd-9-3975-2016 .

[1] Moran, P. A. P. Notes on Continuous Stochastic Phenomena. Biometrika. 1950, 37 (1): 17–23. JSTOR 2332142. PMID 15420245. doi:10.2307/2332142.

[2] Li, Hongfei; Calder, Catherine A.; Cressie, Noel. Beyond Moran's I: Testing for Spatial Dependence Based on the Spatial Autoregressive Model. Geographical Analysis. 2007, 39 (4): 357–375. doi:10.1111/j.1538-4632.2007.00708.x.

[3] Cliff and Ord (1981), Spatial Processes, London

[4] Anselin, Luc. Local Indicators of Spatial Association—LISA. Geographical Analysis. 1995, 27 (2): 93–115 [2022-06-28]. doi:10.1111/j.1538-4632.1995.tb00338.x. （原始內容存檔於2022-07-12）.

[5] Anselin, Luc. Exploring Spatial Data with GeoDa^TM: A Workbook (PDF). Spatial Analysis Laboratory: 138. 2005 [2022-06-28]. （原始內容 (PDF)存檔於2021-06-14）.

[6] Getis, Arthur. The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis. 3 Sep 2010, 24 (3): 189–206. doi:10.1111/j.1538-4632.1992.tb00261.x .

[7] Helbich, M; Leitner, M; Kapusta, ND. Geospatial examination of lithium in drinking water and suicide mortality. Int J Health Geogr. 2012, 11 (1): 19. PMC 3441892 . PMID 22695110. doi:10.1186/1476-072X-11-19.

[8] Grieve, Jack. A regional analysis of contraction rate in written Standard American English. International Journal of Corpus Linguistics. 2011, 16 (4): 514–546. doi:10.1075/ijcl.16.4.04gri.

[9] Alvioli, M.; Marchesini, I.; Reichenbach, P.; Rossi, M.; Ardizzone, F.; Fiorucci, F.; Guzzetti, F. Automatic delineation of geomorphological slope units with r.slopeunits v1.0 and their optimization for landslide susceptibility modeling. Geoscientific Model Development. 2016, 9: 3975–3991. doi:10.5194/gmd-9-3975-2016 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]