改进的空间扫描统计算法及其应用研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:hmxj1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的空间聚集模式。空间扫描统计聚类已经成为当前广泛使用的一种疾病聚集模式探测的方法。由于空间扫描统计(如SaTScan)采用圆形窗口作为探测器,可以有效地识别圆形或椭圆形的簇,但是其无法准确地识别形状不规则(如环形、S形)簇,且算法需要对大量的备选窗口进行判断和计算,运行效率低,无法满足海量大数据分析应用的需求。本文针对空间扫描统计算法的不足,提出了一种空间扫描统计的改进算法。该方法首先依据空间数据局部自相关度量,找到数据中的热点区域;进而,以热点区域为种子点,依据基本统计单元间的空间邻接关系向周围扩展,搜索使空间扫描统计量增大的统计单元的最优集合作为备选空间簇;最后,借鉴目前扫描统计方法中空间簇的显著性检验方法(即蒙特卡洛随机模拟)对备选空间簇进行统计判别,识别出显著的聚类结构。
  [关键词]空间扫描统计;热点探测;空间聚类;SaTScan;改进算法
  中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0223-02
  0 引言
  传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的时空分布模式,主要是时空聚集模式,早期发现这类时空聚集模式,对于有效控制传染病爆发与流行、降低传染病发病率和死亡率具有重要意义,分析传染病时空变化特征对于疾病的早期预警和病理研究也具有重要作。空间聚类分析是时空数据挖掘领域近年来研究的热点问题之一,对于揭示地理要素的分布特征、发展趋势以及变化规律具有重要意义。利用空间聚类分析方法探测和发掘疾病的空间分布模式亦成为GIS、卫生统计学、公共卫生安全等领域的研究热点问题。
  经典的空间扫描统计方法(SaTScan)已经成为目前检测和评估疾病空间聚集的常用方法。但是,这类方法识别圆形或椭圆形的聚类比较有效,对于形状不规则的空间簇探测能力有限。由于地理世界的复杂特性,地理事物的分布往往呈现出多样性、不规则的分布结构(如受到道路、河流等的限制,某种传染性疾病可能会沿着路网或河流的一侧呈现出狭长或复杂形状的分布结构),这就迫切需要能够识别出复杂形状的疾病聚集结构的空间聚类算法。针对经典空间扫描统计算法无法很好识别任意形状空间簇的问题一些学者对其进行了研究,并提出了一些改进算法,根据这些方法所采用的主要思想,包含三种策略来获取不同形状的空间簇,获得空间簇的最优解:(1)降维的策略。(2)减少参数空间的策略。(3)智能优化的策略。
  为此,本文提出了一种空间扫描统计的改进算法,一方面通过空间局部自相关识别出数据中疾病高发的热点单元作为种子点进行扩展,避免了对大量不必要的窗口进行扫描和计算,减少了算法的计算量,提高了速率;另一方面,采用区域增长的聚类合并策略,以前一步探测的热点为种子点,依据空间单元之间的邻接关系和扫描统计量增长最大的原则进行合并扩展,可以识别任意形状的空间簇。
  1 改进的空间扫描统计算法介绍
  现实生活中,往往使人们更为关心的是传染病或流行病的高发病区域,对于低发区域通常不是主要关注对象,那么我们把空间聚类的思想应用到传染病空间数据中去,就更有必要探测寻找发病率高的区域的聚集现象。下面详细介绍本文方法的基本思想及算法流程:
  1.1 G热点探测
  由于现有研究发现,G指数探测局部熱点具有诸多优势且简单易行,所以本文采用G指数进行热点探测。利用空间局部自相关指数Gi*(公式1-1、公式1-2、公式1-3计算可以得到,其中xj是要素j的属性值,wi.j是i和j之间的空间权重,n为要素总数)找到整个区域发病人数的热点区域。因为局部Gi*指数是一种基于距离权矩阵的局部空间自相关指标,它既能够探测出高值聚集即热点也能找到低值聚集即冷点,而对于传染病和流行病高发病区域即热点区域更值得我们关注,那么我们只需根据Gi-pvalue来排除掉冷点仅仅提取出热点即可。G指数就是Gi-zscore得分,无需进一步计算,而Gi-pvalue和 Gi-zscore 的关系如下图(图1-1)。
  (1-1)(1-2)(1-3)
  1.2探测高发病区域发病人数的聚集模式
  这一步是本方法的关键步骤,将第一步骤探测到的热点看作是种子点,然后以种子区开始向外扩展,寻找可以合并的区域。在寻找簇的过程中用到了λ指数(公式1-4,其中nz表示Z区域的事件数,μz表示Z区域的期望事件数,N表示所有区域总的事件数和),把热点作为初始区域,利用λ指数寻找与初始区域可以合并的邻接区域(所谓邻接区域指点共用或边共用的两块区域),将前一次合并的区域又作为下次计算的初始区域,如此反复跌倒操作,直到入指数不再增大为止,即找到了最有可能的簇。
  (1-4)
  1.3显著性检验
  对于第二步找到的极大似然簇需要进行进一步的检验和分析,判断它是否是由随机因素导致的。具体操作是将事件数据重排(一般是999次或者9999次,重排次数越多计算越稳定),分别计算每次重排时第二步找到的极大似然簇区域对应的λ(i)(公式3-4),然后用重排后极大似然簇对应的λ(i)和第二步找到的极大似然簇对应的指数λ(s)进行比较,λ(s)越大说明簇越显著,则可分析形成显著聚类的原因,如果λ(s)越小,说明簇的形成是由随机因素导致的可能性越大。
  2 实验分析与比较
  2.1模拟数据实验
  图2-1显示了一个模拟的空间数据集,其中包含了一个L形状、一个S形状、一个圆形状的空间簇和噪声,噪声占实体比例的50.25%.
  模拟数据中已显现出了L形状、S形状和圆形状的数据聚集情况,对每块区域设定统一属性发病人数n和人口数P。对于L形状、S形状和圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其本文方法是从局部空间自相关为初衷开始的,故圆形状区域内的每块区域发病人数设定为50到60人之间的随机数,其他区域发病人数设定在0到40之间。每块区域的人口数都设置成1000。采用本文方法获得的实验结果和经典扫描统计算法SaTScan结果比较如下:   通过模拟实验比对分析,可以发现本文方法能够识别出任意形状的空间簇,而SaTScan只能扫描窗口类型即圆形和椭圆形状的簇,不能较好的对不规则形状的簇进行探测。本文方法算法也较为简单,扫描统计花时少,用户主观设置的参数少(不需要设置最大扫描窗口的半径),而SaTScan需要用户设置的扫描半径,当扫描窗口半径设置较大时一些相互邻近的疾病的高发区域就出现合并为一个大簇的现象,而当扫描窗口半径设置过小时,一些不规则形状的空间簇会被分割为若干个小的区域,且容易受到局部噪声的干扰,而产生许多虚假显著的簇。
  2.2美国纽约北部1978-1982年白血病数据实验
  由于拿到手的白血病数据是点数据,并没有找到点对应的面,但是本文方法执行的过程中是按区域的邻接关系(空间局部自相关)来寻找空间簇的,故只能用点的voronoi图先代表点对应的面了。本实验采用本文方法和SaTScan方法对白血病的空间聚集模式都进行了探测,从结果可以看出,本文方法找到的空间簇形状更为不规则,SaTScan基本趋近于形状规则,两者共有空间簇的位置基本相同,可以说明的是,本文方法对探测不规则形状空间簇的优越性远远强于SaTScan。本实验数据中有受污染地下水源位置信息,图2-9(本文方法探测面数据后还原成点数据)和图2-10中的黑色三角都代表受污染地下水源位置,从白血病空间聚集模式来看的话,水源位置附近基本都形成了聚类,不難猜想发病聚集的原因可能是水污染导致的。
  3 总结与展望
  3.1总结
  本文共进行两组实验验证,本文方法和现有扫描统计方法SaTScan对模拟数据进行了比对实验,根据预期期望,本文方法获得了更好的空间扫描统计结果,较之于SaTScan,优越性极为明显。现实生活中,聚类形状往往是千变万化的,自然形状亦是多种多样。本文方法重点解决了现有扫描统计方法SaTScan对聚类形状的限制问题,缩短了扫描统计的用时,优势明显。
  通过本文方法美国纽约北部1978-1982年白血病数据进行了空间聚类分析对比试验,结果显示良好,能够较为精确的显示白血病数据的空间聚类模式,本文方法优势明显,用户人为设置的参数少,人为参数对聚类结果影响小且可以处理大规模的数据,主要还是可以探测任意形状、任意大小的空间簇。SaTScan会限制聚类的形状,要求用户输入参数稍多,用户主观输入的参数对聚类结果影响较大。不管是通过模拟实验还是使用数据实验,都能很明显的体现出本文方法的合理性和优越性。本文方法的提出在一定程度上解决了现有空间扫描统计方法面临的部分问题。
  3.2研究展望
  本文主要是针对疾病发病率较高的聚集区域进行探测和分析,对现有研究的不足进行改进,但是只考虑了实体的空间属性,没有考虑空间实体的专题属性。进一步的研究主要集中在三个方面,一是顾忌实体的专题属性,并将该方法应用于多种类型的空间数据库,如地震灾害预警、犯罪高发区分析、以及气象等数据的应用分析。二是对λ指数和其他指数如方差指数再进行深入研究比较看哪个更优。三则是将该方法发展应用到时空二维属性的空间数据上,这还需要很大的一步,加强逻辑严密性和严谨的数学验证也是需要完善的地方。
  参考文献
  [1] 胡碧松,龚建华,曹务春,方立群.协同疾病监测与处置系统的设计与实现[J].计算机工程,2009,22:10-12+16.
  [2] 马程.空间聚类研究[J].计算机技术与发展.2009,19(4).
  [3] 邓敏,刘启亮,李光强,黄健柏.空间聚类分析及应用[M]北京:科学出版社,2011.
其他文献
[摘 要]进入新时期以后,我国离退休人员的管理工作也越来越受到全社会的广泛重视,因为离退休人员为社会主义现代化建设做出了杰出的贡献,其退休后的生活质量可以直接影响到和谐社会的构建以及党和国家法律法规的正确执行,因此,加强新形势下离退休人员管理工作,十分重要。本文也会对我国离退休人员管理工作中存在的具体问题进行详细探讨,并针对性的提出一些有效的完善措施。  [关键词]离退休人员;管理工作;问题分析;
期刊
[摘 要]近年来,我国在积极加大畜牧业发展力度的过程中,针对肉鸡的养殖,创新了养殖模式。饲养中要正确掌握饲养管理方法,避免和减少各类鸡病的发生发展,降低死亡率,才能实现最佳的养殖收益。本文在此从对如何做好肉鸡饲养及肉鸡的疾病防治做了详细的研究。  [关键词]肉鸡;疾病;防治技术  中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0254-01  前言:  肉鸡生
期刊
[摘 要]“简约”已成为理所当然、无可取代的空间风格主流。这种风格的特点是注重居室的功能,家具造型简洁、少装饰,通过家具、吊顶、地面材料、陈列品甚至光线的变化来表达不同功能空间的划分。  [关键词]简约家具 室内设计 个性与装潢  中图分类号:U231.8 文献标识码:A 文章编号:1009-914X(2018)27-0245-01  随着室内设计多元性的出现,“简约”已成为室内设计风格的主流。其
期刊
[摘 要]随着我国新型城镇进程的推进,与之相应的农村土地问题越发明显,本文在简要分析我国农村土地整治的现实需求及其存在的困境问题的基础上,从三方面提出了优化管理农村土地整治的建议,以期农村土地整治这一“惠民工程”、“德政工程”真正落到实处。  [关键词]农村土地整治 城乡发展 问题  中图分类号:U231.8 文献标识码:A 文章编号:1009-914X(2018)27-0251-01  当前,我
期刊
[摘 要]阐述了磁处理技术的基本理论, 磁处理技术由于其独特性质和广泛的应用前景, 加强磁场与选矿技术的综合利用, 对保护环境、节约能耗、回收资源、磁处理机理的形成和选矿技术的发展等具有重要意义。  [关键词]磁处理技术;矿物;应用  中图分类号:U231.8 文献标识码:A 文章编号:1009-914X(2018)27-0255-01  引言:  磁现象是一种普遍存在的物理现象,而磁性存在于一切
期刊
[摘 要]本文结合乐至县开展气象综合观测的实际,首先简要探讨了开展气象综合观测的必要性,接着分析了气象综合观测的常见问题,最后给出了几点气象综合观测的应对思考。  [关键词]气象综合观测 必要性 问题 应对思考  中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0258-01  引言  乐至县位于四川盆地中部,是四川省资阳市下辖的一个县,幅员面积1425平方公里
期刊
[摘 要]在习近平总书记的治国理政政治思想当中,要将国家的治理体系以及能力的现代化思想作为主线,并将其应用在整个政治思想当中。本文针对习近平治国理政的政治思想做出了进一步探究,对习近平治国理政的政治思想的主线、习近平治国理政的政治思想基础、习近平治国理政的思想给出了详细的分析。  [关键词]治国理政 政治思想 研究  中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)2
期刊
[摘 要]2014—2015年温州市开展了白蚁蚁害调查,采取实地抽样调查、调用历史数据、综合分析评价,基本掌握了全市白蚁种类、分布、危害特征与动态变化,及各邻域蚁害率。全市白蚁共3科7属9种,乳白蚁、散白蚁和土栖白蚁等有害蚁种各县(市、区)均有分布,平阳堆砂白蚁为本市特有种。坚持白蚁“综合治理”【1】理念,研究并提出蚁害控制对策。  [关键词]温州 白蚁 危害 控制  中图分类号:TM31 文献标
期刊
[摘 要]非线性编辑以其独特的优势出现在电视制作领域,深受电视工作者欢迎。在实际的电视节目制作实践中,根据制作的电视节目的不同,熟练使用非线性编辑,会起到事半功倍的效果。本文通过阐述了非线性编辑在电视节目制作后期编辑中的特点及优势,以及它在电视制作后期编辑中的应用。  [关键词]非线性编辑 非线性编辑系统  中图分类号:U231.8 文献标识码:A 文章编号:1009-914X(2018)27-0
期刊
[摘 要]近年来,平安城市网络视频监控组网问题得到了业内的广泛关注,研究其相关课题有着重要意义。本文首先对相关内容做了概述,分析了构建平安城市的关键性,并结合相关实践经验,分别从城市租赁运营模式以及城市自建专网模式等多个角度与方面,对该课题展开了研究,阐述了个人对此的几点看法与认识,望有助于相关工作的实践。  [关键词]平安城市;网络视频监控组网;解决方案;趋势  中图分类号:TM31 文献标识码
期刊