论文部分内容阅读
[摘 要]传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的空间聚集模式。空间扫描统计聚类已经成为当前广泛使用的一种疾病聚集模式探测的方法。由于空间扫描统计(如SaTScan)采用圆形窗口作为探测器,可以有效地识别圆形或椭圆形的簇,但是其无法准确地识别形状不规则(如环形、S形)簇,且算法需要对大量的备选窗口进行判断和计算,运行效率低,无法满足海量大数据分析应用的需求。本文针对空间扫描统计算法的不足,提出了一种空间扫描统计的改进算法。该方法首先依据空间数据局部自相关度量,找到数据中的热点区域;进而,以热点区域为种子点,依据基本统计单元间的空间邻接关系向周围扩展,搜索使空间扫描统计量增大的统计单元的最优集合作为备选空间簇;最后,借鉴目前扫描统计方法中空间簇的显著性检验方法(即蒙特卡洛随机模拟)对备选空间簇进行统计判别,识别出显著的聚类结构。
[关键词]空间扫描统计;热点探测;空间聚类;SaTScan;改进算法
中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0223-02
0 引言
传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的时空分布模式,主要是时空聚集模式,早期发现这类时空聚集模式,对于有效控制传染病爆发与流行、降低传染病发病率和死亡率具有重要意义,分析传染病时空变化特征对于疾病的早期预警和病理研究也具有重要作。空间聚类分析是时空数据挖掘领域近年来研究的热点问题之一,对于揭示地理要素的分布特征、发展趋势以及变化规律具有重要意义。利用空间聚类分析方法探测和发掘疾病的空间分布模式亦成为GIS、卫生统计学、公共卫生安全等领域的研究热点问题。
经典的空间扫描统计方法(SaTScan)已经成为目前检测和评估疾病空间聚集的常用方法。但是,这类方法识别圆形或椭圆形的聚类比较有效,对于形状不规则的空间簇探测能力有限。由于地理世界的复杂特性,地理事物的分布往往呈现出多样性、不规则的分布结构(如受到道路、河流等的限制,某种传染性疾病可能会沿着路网或河流的一侧呈现出狭长或复杂形状的分布结构),这就迫切需要能够识别出复杂形状的疾病聚集结构的空间聚类算法。针对经典空间扫描统计算法无法很好识别任意形状空间簇的问题一些学者对其进行了研究,并提出了一些改进算法,根据这些方法所采用的主要思想,包含三种策略来获取不同形状的空间簇,获得空间簇的最优解:(1)降维的策略。(2)减少参数空间的策略。(3)智能优化的策略。
为此,本文提出了一种空间扫描统计的改进算法,一方面通过空间局部自相关识别出数据中疾病高发的热点单元作为种子点进行扩展,避免了对大量不必要的窗口进行扫描和计算,减少了算法的计算量,提高了速率;另一方面,采用区域增长的聚类合并策略,以前一步探测的热点为种子点,依据空间单元之间的邻接关系和扫描统计量增长最大的原则进行合并扩展,可以识别任意形状的空间簇。
1 改进的空间扫描统计算法介绍
现实生活中,往往使人们更为关心的是传染病或流行病的高发病区域,对于低发区域通常不是主要关注对象,那么我们把空间聚类的思想应用到传染病空间数据中去,就更有必要探测寻找发病率高的区域的聚集现象。下面详细介绍本文方法的基本思想及算法流程:
1.1 G热点探测
由于现有研究发现,G指数探测局部熱点具有诸多优势且简单易行,所以本文采用G指数进行热点探测。利用空间局部自相关指数Gi*(公式1-1、公式1-2、公式1-3计算可以得到,其中xj是要素j的属性值,wi.j是i和j之间的空间权重,n为要素总数)找到整个区域发病人数的热点区域。因为局部Gi*指数是一种基于距离权矩阵的局部空间自相关指标,它既能够探测出高值聚集即热点也能找到低值聚集即冷点,而对于传染病和流行病高发病区域即热点区域更值得我们关注,那么我们只需根据Gi-pvalue来排除掉冷点仅仅提取出热点即可。G指数就是Gi-zscore得分,无需进一步计算,而Gi-pvalue和 Gi-zscore 的关系如下图(图1-1)。
(1-1)(1-2)(1-3)
1.2探测高发病区域发病人数的聚集模式
这一步是本方法的关键步骤,将第一步骤探测到的热点看作是种子点,然后以种子区开始向外扩展,寻找可以合并的区域。在寻找簇的过程中用到了λ指数(公式1-4,其中nz表示Z区域的事件数,μz表示Z区域的期望事件数,N表示所有区域总的事件数和),把热点作为初始区域,利用λ指数寻找与初始区域可以合并的邻接区域(所谓邻接区域指点共用或边共用的两块区域),将前一次合并的区域又作为下次计算的初始区域,如此反复跌倒操作,直到入指数不再增大为止,即找到了最有可能的簇。
(1-4)
1.3显著性检验
对于第二步找到的极大似然簇需要进行进一步的检验和分析,判断它是否是由随机因素导致的。具体操作是将事件数据重排(一般是999次或者9999次,重排次数越多计算越稳定),分别计算每次重排时第二步找到的极大似然簇区域对应的λ(i)(公式3-4),然后用重排后极大似然簇对应的λ(i)和第二步找到的极大似然簇对应的指数λ(s)进行比较,λ(s)越大说明簇越显著,则可分析形成显著聚类的原因,如果λ(s)越小,说明簇的形成是由随机因素导致的可能性越大。
2 实验分析与比较
2.1模拟数据实验
图2-1显示了一个模拟的空间数据集,其中包含了一个L形状、一个S形状、一个圆形状的空间簇和噪声,噪声占实体比例的50.25%.
模拟数据中已显现出了L形状、S形状和圆形状的数据聚集情况,对每块区域设定统一属性发病人数n和人口数P。对于L形状、S形状和圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其本文方法是从局部空间自相关为初衷开始的,故圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其他区域发病人数设定在0到40之间。每块区域的人口数都设置成1000。采用本文方法获得的实验结果和经典扫描统计算法SaTScan结果比较如下: 通过模拟实验比对分析,可以发现本文方法能够识别出任意形状的空间簇,而SaTScan只能扫描窗口类型即圆形和椭圆形状的簇,不能较好的对不规则形状的簇进行探测。本文方法算法也较为简单,扫描统计花时少,用户主观设置的参数少(不需要设置最大扫描窗口的半径),而SaTScan需要用户设置的扫描半径,当扫描窗口半径设置较大时一些相互邻近的疾病的高发区域就出现合并为一个大簇的现象,而当扫描窗口半径设置过小时,一些不规则形状的空间簇会被分割为若干个小的区域,且容易受到局部噪声的干扰,而产生许多虚假显著的簇。
2.2美国纽约北部1978-1982年白血病数据实验
由于拿到手的白血病数据是点数据,并没有找到点对应的面,但是本文方法执行的过程中是按区域的邻接关系(空间局部自相关)来寻找空间簇的,故只能用点的voronoi图先代表点对应的面了。本实验采用本文方法和SaTScan方法对白血病的空间聚集模式都进行了探测,从结果可以看出,本文方法找到的空间簇形状更为不规则,SaTScan基本趋近于形状规则,两者共有空间簇的位置基本相同,可以说明的是,本文方法对探测不规则形状空间簇的优越性远远强于SaTScan。本实验数据中有受污染地下水源位置信息,图2-9(本文方法探测面数据后还原成点数据)和图2-10中的黑色三角都代表受污染地下水源位置,从白血病空间聚集模式来看的话,水源位置附近基本都形成了聚类,不難猜想发病聚集的原因可能是水污染导致的。
3 总结与展望
3.1总结
本文共进行两组实验验证,本文方法和现有扫描统计方法SaTScan对模拟数据进行了比对实验,根据预期期望,本文方法获得了更好的空间扫描统计结果,较之于SaTScan,优越性极为明显。现实生活中,聚类形状往往是千变万化的,自然形状亦是多种多样。本文方法重点解决了现有扫描统计方法SaTScan对聚类形状的限制问题,缩短了扫描统计的用时,优势明显。
通过本文方法美国纽约北部1978-1982年白血病数据进行了空间聚类分析对比试验,结果显示良好,能够较为精确的显示白血病数据的空间聚类模式,本文方法优势明显,用户人为设置的参数少,人为参数对聚类结果影响小且可以处理大规模的数据,主要还是可以探测任意形状、任意大小的空间簇。SaTScan会限制聚类的形状,要求用户输入参数稍多,用户主观输入的参数对聚类结果影响较大。不管是通过模拟实验还是使用数据实验,都能很明显的体现出本文方法的合理性和优越性。本文方法的提出在一定程度上解决了现有空间扫描统计方法面临的部分问题。
3.2研究展望
本文主要是针对疾病发病率较高的聚集区域进行探测和分析,对现有研究的不足进行改进,但是只考虑了实体的空间属性,没有考虑空间实体的专题属性。进一步的研究主要集中在三个方面,一是顾忌实体的专题属性,并将该方法应用于多种类型的空间数据库,如地震灾害预警、犯罪高发区分析、以及气象等数据的应用分析。二是对λ指数和其他指数如方差指数再进行深入研究比较看哪个更优。三则是将该方法发展应用到时空二维属性的空间数据上,这还需要很大的一步,加强逻辑严密性和严谨的数学验证也是需要完善的地方。
参考文献
[1] 胡碧松,龚建华,曹务春,方立群.协同疾病监测与处置系统的设计与实现[J].计算机工程,2009,22:10-12+16.
[2] 马程.空间聚类研究[J].计算机技术与发展.2009,19(4).
[3] 邓敏,刘启亮,李光强,黄健柏.空间聚类分析及应用[M]北京:科学出版社,2011.
[关键词]空间扫描统计;热点探测;空间聚类;SaTScan;改进算法
中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0223-02
0 引言
传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的时空分布模式,主要是时空聚集模式,早期发现这类时空聚集模式,对于有效控制传染病爆发与流行、降低传染病发病率和死亡率具有重要意义,分析传染病时空变化特征对于疾病的早期预警和病理研究也具有重要作。空间聚类分析是时空数据挖掘领域近年来研究的热点问题之一,对于揭示地理要素的分布特征、发展趋势以及变化规律具有重要意义。利用空间聚类分析方法探测和发掘疾病的空间分布模式亦成为GIS、卫生统计学、公共卫生安全等领域的研究热点问题。
经典的空间扫描统计方法(SaTScan)已经成为目前检测和评估疾病空间聚集的常用方法。但是,这类方法识别圆形或椭圆形的聚类比较有效,对于形状不规则的空间簇探测能力有限。由于地理世界的复杂特性,地理事物的分布往往呈现出多样性、不规则的分布结构(如受到道路、河流等的限制,某种传染性疾病可能会沿着路网或河流的一侧呈现出狭长或复杂形状的分布结构),这就迫切需要能够识别出复杂形状的疾病聚集结构的空间聚类算法。针对经典空间扫描统计算法无法很好识别任意形状空间簇的问题一些学者对其进行了研究,并提出了一些改进算法,根据这些方法所采用的主要思想,包含三种策略来获取不同形状的空间簇,获得空间簇的最优解:(1)降维的策略。(2)减少参数空间的策略。(3)智能优化的策略。
为此,本文提出了一种空间扫描统计的改进算法,一方面通过空间局部自相关识别出数据中疾病高发的热点单元作为种子点进行扩展,避免了对大量不必要的窗口进行扫描和计算,减少了算法的计算量,提高了速率;另一方面,采用区域增长的聚类合并策略,以前一步探测的热点为种子点,依据空间单元之间的邻接关系和扫描统计量增长最大的原则进行合并扩展,可以识别任意形状的空间簇。
1 改进的空间扫描统计算法介绍
现实生活中,往往使人们更为关心的是传染病或流行病的高发病区域,对于低发区域通常不是主要关注对象,那么我们把空间聚类的思想应用到传染病空间数据中去,就更有必要探测寻找发病率高的区域的聚集现象。下面详细介绍本文方法的基本思想及算法流程:
1.1 G热点探测
由于现有研究发现,G指数探测局部熱点具有诸多优势且简单易行,所以本文采用G指数进行热点探测。利用空间局部自相关指数Gi*(公式1-1、公式1-2、公式1-3计算可以得到,其中xj是要素j的属性值,wi.j是i和j之间的空间权重,n为要素总数)找到整个区域发病人数的热点区域。因为局部Gi*指数是一种基于距离权矩阵的局部空间自相关指标,它既能够探测出高值聚集即热点也能找到低值聚集即冷点,而对于传染病和流行病高发病区域即热点区域更值得我们关注,那么我们只需根据Gi-pvalue来排除掉冷点仅仅提取出热点即可。G指数就是Gi-zscore得分,无需进一步计算,而Gi-pvalue和 Gi-zscore 的关系如下图(图1-1)。
(1-1)(1-2)(1-3)
1.2探测高发病区域发病人数的聚集模式
这一步是本方法的关键步骤,将第一步骤探测到的热点看作是种子点,然后以种子区开始向外扩展,寻找可以合并的区域。在寻找簇的过程中用到了λ指数(公式1-4,其中nz表示Z区域的事件数,μz表示Z区域的期望事件数,N表示所有区域总的事件数和),把热点作为初始区域,利用λ指数寻找与初始区域可以合并的邻接区域(所谓邻接区域指点共用或边共用的两块区域),将前一次合并的区域又作为下次计算的初始区域,如此反复跌倒操作,直到入指数不再增大为止,即找到了最有可能的簇。
(1-4)
1.3显著性检验
对于第二步找到的极大似然簇需要进行进一步的检验和分析,判断它是否是由随机因素导致的。具体操作是将事件数据重排(一般是999次或者9999次,重排次数越多计算越稳定),分别计算每次重排时第二步找到的极大似然簇区域对应的λ(i)(公式3-4),然后用重排后极大似然簇对应的λ(i)和第二步找到的极大似然簇对应的指数λ(s)进行比较,λ(s)越大说明簇越显著,则可分析形成显著聚类的原因,如果λ(s)越小,说明簇的形成是由随机因素导致的可能性越大。
2 实验分析与比较
2.1模拟数据实验
图2-1显示了一个模拟的空间数据集,其中包含了一个L形状、一个S形状、一个圆形状的空间簇和噪声,噪声占实体比例的50.25%.
模拟数据中已显现出了L形状、S形状和圆形状的数据聚集情况,对每块区域设定统一属性发病人数n和人口数P。对于L形状、S形状和圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其本文方法是从局部空间自相关为初衷开始的,故圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其他区域发病人数设定在0到40之间。每块区域的人口数都设置成1000。采用本文方法获得的实验结果和经典扫描统计算法SaTScan结果比较如下: 通过模拟实验比对分析,可以发现本文方法能够识别出任意形状的空间簇,而SaTScan只能扫描窗口类型即圆形和椭圆形状的簇,不能较好的对不规则形状的簇进行探测。本文方法算法也较为简单,扫描统计花时少,用户主观设置的参数少(不需要设置最大扫描窗口的半径),而SaTScan需要用户设置的扫描半径,当扫描窗口半径设置较大时一些相互邻近的疾病的高发区域就出现合并为一个大簇的现象,而当扫描窗口半径设置过小时,一些不规则形状的空间簇会被分割为若干个小的区域,且容易受到局部噪声的干扰,而产生许多虚假显著的簇。
2.2美国纽约北部1978-1982年白血病数据实验
由于拿到手的白血病数据是点数据,并没有找到点对应的面,但是本文方法执行的过程中是按区域的邻接关系(空间局部自相关)来寻找空间簇的,故只能用点的voronoi图先代表点对应的面了。本实验采用本文方法和SaTScan方法对白血病的空间聚集模式都进行了探测,从结果可以看出,本文方法找到的空间簇形状更为不规则,SaTScan基本趋近于形状规则,两者共有空间簇的位置基本相同,可以说明的是,本文方法对探测不规则形状空间簇的优越性远远强于SaTScan。本实验数据中有受污染地下水源位置信息,图2-9(本文方法探测面数据后还原成点数据)和图2-10中的黑色三角都代表受污染地下水源位置,从白血病空间聚集模式来看的话,水源位置附近基本都形成了聚类,不難猜想发病聚集的原因可能是水污染导致的。
3 总结与展望
3.1总结
本文共进行两组实验验证,本文方法和现有扫描统计方法SaTScan对模拟数据进行了比对实验,根据预期期望,本文方法获得了更好的空间扫描统计结果,较之于SaTScan,优越性极为明显。现实生活中,聚类形状往往是千变万化的,自然形状亦是多种多样。本文方法重点解决了现有扫描统计方法SaTScan对聚类形状的限制问题,缩短了扫描统计的用时,优势明显。
通过本文方法美国纽约北部1978-1982年白血病数据进行了空间聚类分析对比试验,结果显示良好,能够较为精确的显示白血病数据的空间聚类模式,本文方法优势明显,用户人为设置的参数少,人为参数对聚类结果影响小且可以处理大规模的数据,主要还是可以探测任意形状、任意大小的空间簇。SaTScan会限制聚类的形状,要求用户输入参数稍多,用户主观输入的参数对聚类结果影响较大。不管是通过模拟实验还是使用数据实验,都能很明显的体现出本文方法的合理性和优越性。本文方法的提出在一定程度上解决了现有空间扫描统计方法面临的部分问题。
3.2研究展望
本文主要是针对疾病发病率较高的聚集区域进行探测和分析,对现有研究的不足进行改进,但是只考虑了实体的空间属性,没有考虑空间实体的专题属性。进一步的研究主要集中在三个方面,一是顾忌实体的专题属性,并将该方法应用于多种类型的空间数据库,如地震灾害预警、犯罪高发区分析、以及气象等数据的应用分析。二是对λ指数和其他指数如方差指数再进行深入研究比较看哪个更优。三则是将该方法发展应用到时空二维属性的空间数据上,这还需要很大的一步,加强逻辑严密性和严谨的数学验证也是需要完善的地方。
参考文献
[1] 胡碧松,龚建华,曹务春,方立群.协同疾病监测与处置系统的设计与实现[J].计算机工程,2009,22:10-12+16.
[2] 马程.空间聚类研究[J].计算机技术与发展.2009,19(4).
[3] 邓敏,刘启亮,李光强,黄健柏.空间聚类分析及应用[M]北京:科学出版社,2011.