基于模糊集理论与空间序偶模式挖掘污染源与癌症病例的关系

来源 :云南大学 | 被引量 : 0次 | 上传用户:zb280048797
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界经济的高速发展以及工业化和城镇化的不断加速,自然环境已经受到了极大的污染与破环,随之而来的后果便是每年节节攀升的患癌率与致死率。来自世界卫生组织(WHO)的最新数据显示,去年全世界患癌1930万人,死亡1000万人,而在我国每分钟就有7.5人被确诊为癌症,癌症已成为人类死亡的第二大原因。相关的研究报告显示在众多致癌因素中,遗传因素大约占比4%~6%,而环境因素则大约占比60%以上,所以研究污染源与癌症病例的关系,以求降低患癌率和致死率,为癌症防治工作提供一定程度上的帮助。传统空间co-location模式挖掘方法在研究污染源与癌症病例的关系时存在许多不足之处。首先,需要用户给定一个空间邻近距离阈值,若用户没有相关领域知识,则很可能会造成空间邻近关系的错失。同时,单一的空间邻近距离阈值也没有将不同空间实例之间的距离大小对空间邻近程度的影响考虑在内。其次,团划分模型会遗漏癌症病例受多个不邻近的污染源实例共同影响的情况。再者,不根据应用背景区分空间特征的重要性会忽略它们之间的交互关系。最后,传统的度量方法无法度量空间特征间的影响程度。总而言之,传统的挖掘方法并不适用于本文的研究。因此,本文提出了基于模糊集理论与空间序偶模式挖掘污染源与癌症病例关系的方法。首先,将空间数据集分为污染源数据集和癌症病例数据集两大类,将癌症实例集作为生成元利用Voronoi图的性质对污染源实例集进行划分,接着基于模糊集理论和星型划分模型,定义了空间实例之间的模糊邻近关系。其次,提出了空间序偶模式的参与度和模糊影响度等相关概念,来度量模式中癌症特征与污染源特征之间的关系和癌症特征受污染源特征影响的程度。随后,给出了相关定义所满足的性质以及相应的挖掘框架,并基于挖掘框架提出了一种基本挖掘算法(PSSOPP_NA算法),为了提高挖掘效率,基于空间序偶模式的特点,设计了新的剪枝策略并提出了相应的优化挖掘算法(PSSOPP_OA算法)。最后,在真实和合成数据集上做了大量实验,其中在真实数据集中验证了所提算法的正确性和有效性,在合成数据集中验证了伸缩性。
其他文献
伴随现代技术的发展,社会网络不论从规模和复杂度上来看都呈现出快速增长的势态,针对社会网络的研究如日方升。结构洞是指社会网络中的关键性节点,一般理解为在网络中起到“桥”作用的节点,是网络中连接各个部分的关键。结构洞的研究对分析网络信息传播的扩散特性和网络社区发现都有重要意义。传统结构洞发现算法通常侧重于处理无权社会网络,通过网络的结构特征进行结构洞的发现。而在真实的社会网络中,节点之间除了描述它们关
学位
云南由于地处边疆,地域广阔,长久以来陆路交通不便,发展航空是解决交通不便的重要措施。云南是航空大省,目前云南省运营的机场数量较多,在全国位居前三,仅民用机场数量就达15个之多,为了推进机场安检的智能化建设,本文对智能飞机安全监护和智能机务安全检测进行研究。飞机安全监护系统主要对进入停机坪人员的合法性进行自动识别。由于进入停机坪的人员在监控视频中都是小目标,存在光线昏暗,人员密集等复杂场景,对目标检
学位
Web API是一种可供应用程序实现存储、消息、计算等服务功能的应用编程接口。它的好处在于容易被访问、开发、组合和扩展,因此在基于Mashup的服务系统的构建方面起着重要的支撑作用。随着互联网上Web API数量的迅猛增多,开发者面临着如何从众多功能相似的API中挑选最合适的目标以构建Mashup的问题,这为开发者带来了许多挑战。通过构建API的推荐系统则有助于缓解此问题,因此已经有许多基于协同过
学位
随着全球一体化进程发展和“一带一路”倡议的提出,中国与周边国家的经济、技术、文化交流在广泛和纵深方面不断发展。彼此间跨语言的共享和交流成为保障和巩固发展的前提。近年来,自然语言处理技术地进步带来了机器翻译技术的飞速发展和翻译质量的大幅提升,但对于语料匮乏的非通用语翻译来说,仍然难以从根本上解决机器翻译质量低等问题。群智协同计算是伴随互联网和大数据地发展所提出的,对开放网络环境中群智资源的高效管理和
学位
基于位置的社交网络(LBSN)随着技术的不断革新,受到越来越多的人们喜爱,由此产生大量位置相关数据,可用来提供基于位置的服务。在位置服务研究中兴趣点(POI)推荐备受关注。兴趣点推荐可以帮助用户探索感兴趣的地点,在兴趣点推荐时不可避免的面临着用户签到数据稀疏以及如何提高用户满意度的问题。在用户探索某一兴趣点的过程中,时空因素具有较大的影响作用。因此,本文提出两种兴趣点推荐方法,探索时空因素对用户访
学位
安全是机场的生命线,是民航业永恒的主题,建设机场安全监管平台至关重要,“智”造加速势在必行。然而目前机场停机坪一线人员缺乏必要的信息终端,且监控系统不够智能,因此,一方面一线人员面临突发情况,难以迅速找到相关预案,更重要的是缺乏对一线岗位的安全工作和规范操作的实时、完整管控,难以对机场安全态势进行整体把握,相关信息滞后失真,安全管理常常是事后管理。本文对云南机场集团丽江三义国际机场停机坪视频监控中
学位
蛋白质的可溶性是指蛋白质能否以小分子状态溶解于水或其它溶质的能力。可溶性是蛋白质生物物理研究和工业应用成功的重要先决条件,对基于蛋白质的药物设计和食品生产有至关重要的作用。传统生物实验对蛋白质可溶性的测定费时费力,也难以满足蛋白质数量的增长速度。蛋白组数据的累积为基于计算方法的蛋白质可溶性预测创造了可能性,也使之成为一个可选的替代方法。然而,现有方法在表示和挖掘可溶性特征时,仍存在一定的改进空间。
学位
关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。
学位
随着Web2.0应用的迅速发展和快速普及,大量用户生成的数据成为了Web信息服务的基础,例如,产生于电商平台的网购数据可用于分析用户的购物偏好,从而实现商品的个性化推荐。这些数据中的特征之间往往存在非线性的图型依赖关系,同时存在无法观测到的特征(如用户对商品多个描述维度的偏好)。对数据进行建模、并实现有效的信息服务,需要建立有效描述无法观测到的特征并对所蕴含的依赖关系进行有效计算分析的知识模型。作
学位
真核细胞中能够与RNA结合的蛋白质称为RNA结合蛋白(RNA-binding protein,RBP)。RBP是一种功能强大而广泛的调节因子,在调节剪接、RNA转运等转录后过程,识别特殊的RNA结合域并与RNA相互作用。因此,快速计算分析和预测对于理解RBP至关重要。本文主要工作是将进化信息,原始序列信息,结构信息以及二肽和三肽分布信息作为特征表达方法,采用多种深度学习方法为每一种特征构建子分类模
学位