前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Moran’s I。
首先,Moran’s I这个东西。官方叫做:莫兰指数,是澳大利亚统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰(Patrick
Alfred PierceMoran)(好长的名字。只是一般都简称为:帕克·莫兰,就是下图这位中年帅哥了)。在1950年提出的。这一年,朝鲜战争爆发。
莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学。第二次世界大战的时候,增加了盟军,而且由于在数学和物理学上面的特长,被安排在剑桥大学的外弹道学实验室(External
Ballistics Laboratory)负责火箭的研究工作。战争结束后,任教于牛津大学,而且就在牛津任教期间。提出了关于莫兰指数的问题。
另外再加一点点小花絮,莫兰同学终生未获得博士学位,可是据他晚年回顾,他似乎对这个事情一直感到骄傲(自己并不是博士,可是带出了无数的博士生)。
那么莫兰指数究竟是个啥东西呢?莫兰指数通常是用来度量空间相关性的一个重要指标。
一般说来,莫兰指数分为全局莫兰指数(GlobalMoran’s I)和安瑟伦局部莫兰指数(AnselinLocal Moran’s I)后者是美国亚利桑那州立大学地理与规划学院院长Luc Anselin教授在1995年提出的,后面我们会说到。
今天就简单说说全局莫兰指数,也是狭义上的莫兰指数。
莫兰指数是一个有理数,经过方差归一化之后,它的值会被归一化到–1.0——1.0之间。(假设有喜欢看数学公式的,我最后贴出了全局莫兰指数的计算公式,这里是科普性质的,我就不贴数学公式来虐待大家的大脑了。
当然。这个归一化是一般的情况,依据某些特殊的情况。也会计算出一些不在这个范围内的值,最后来讨论为什么会超出这个范围。
全局莫兰指数计算完毕之后,所有的要素。就会给出你一个关于所有数据的相关性的数值(反之。局部莫兰指数。就每一个要素都会给你一个相关性数值了,这个以后在说)。
所以我们能够依据他给出的值,来看当前你须要计算的数据结果了。
Moran’s I >0表示空间正相关性,其值越大,空间相关性越明显。Moran’s I <0表示空间负相关性,其值越小,空间差异越大,否则,Moran’s I = 0,空间呈随机性。
这里须要注意一下啊。空间差异和空间异质性是不同的概念。
空间差异(spatialdisparity)是指不同地域范畴由于(社会、经济等)发展水平及其结构不同。而产生的差异。
而空间异质性(spatialheterogeneity)是指由于空间位置的不同而引发的获取到不同的数据。
所以二者切不可混为一谈。
最后,我们们来看看,什么叫做正相关,什么叫做负相关。
所谓的相关。就是指相互关系,正相关,就是随着自变量的增长,应变量也随着增长,比方虾神的年纪和血压,就是标准的正相关……。而负相关当然就是相反了,随着自变量的增长而降低,比方虾神的年纪和体力……
那么空间上面的正相关。就是指随着空间分布位置(距离)的聚集,相关性就也就越发显著。
空间上的负相关就正好相反了,随着空间分布位置的离散,反而相关性变得显著了。
像例如以下我採用中国行政区划计算出来的结果:
<img src="http://img.blog.csdn.net/20150729165340882?
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center” alt=””>
整个图表能够看出来,人口数和患病的人数,都与空间信息成正相关,就是说,空间分布聚集度大的地方,人口数和患病人数也对应多。
可是能够看见的,患病人数,随着时间推移,他的莫兰指数在上升。而人口数随着年份,莫兰指数在下降。这说明了中国人口的数量慢慢的与空间分布的相关性在减弱,而患病人数与空间分布的相关性在添加。
当然,莫兰指数仅仅是在衡量空间相关性时候的一个重要指标,并不全然可以代表空间相关性,还须要有其它的数据进行验证和综合考量。
以下部分部分仅供不怕死脑细胞的同学參考:(来源于ArcGIS for Destkop的帮助文档)
1、全局莫兰指数的公式:
2、刚才讨论了。莫兰指数通常是在 –1——1之间,那么有时候突然算出来超出这个区间的数据。是怎么回事呢?是不是软件出了bug?
答案是和软件bug无关。
通常,Global Moran’s I 指数介于 -1.0 到 1.0 之间。
是仅仅有对我们权重进行了行标准化(行标准化的意思。就是在做空间距离矩阵的时候,对矩阵中的每一行,求和后。每一个元素除以所在行元素之和这样的标准化操作)时才会这样。假设没有对权重进行行标准化处理,则指数值可能会落在-1.0
到 1.0 的范围之外。这表示參数设置有问题。最常见的问题例如以下:
输入的数据严重偏斜(创建数据值的直方图可了解此情况),空间关系的概念化或距离范围的设置使得某些要素的相邻要素很少。Global
Moran’s I 统计量是渐进正态的。这意味着,对于偏斜数据,每一个要素至少须要具有 8 个相邻要素。为距离范围或距离阈值參数计算的默认值可确保每一个要素至少具有 1 个相邻要素,但这可能不够,尤其是在输入数据中的有的值出现严重偏斜时。使用反距离空间关系的概念化。而且反距离很小。
关于反距离过小的问题,是由于在选择反距离的幂的时候,为了突出拉伸。选择了一个过高的幂。这样就会把反距离(距离的倒数)变得很的小。看以下关于反距离中幂的说明:
<img src="http://img.blog.csdn.net/20150729165448181?
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center” alt=””>
3.未选择行标准化。但应选择。除非聚合方案与所分析的字段直接相关,否则,仅仅要对数据进行了聚合处理。就应选择行标准化。
好,关于全局莫兰值的介绍今天先到这里,下次我们来看看在ArcGIS里面怎样使用这个工具来进行计算。