【摘 要】
:
近年来,随着医疗数据量的暴增,运用数据挖掘方法从数据中获取潜在的、有价值的信息受到了医疗界和科研人员的广泛关注。其中,关联规则挖掘由于其可以有效地揭示数据背后隐含的规律,而成为了医疗数据挖掘领域的研究热点。本论文围绕医疗数据挖掘在不平衡数据集的应用展开了研究,提出了“先平衡后关联规则挖掘”的方案。具体研究工作如下:1.针对现有的关联规则挖掘研究未考虑医疗数据集中存在的数据不平衡问题,提出了基于K-
论文部分内容阅读
近年来,随着医疗数据量的暴增,运用数据挖掘方法从数据中获取潜在的、有价值的信息受到了医疗界和科研人员的广泛关注。其中,关联规则挖掘由于其可以有效地揭示数据背后隐含的规律,而成为了医疗数据挖掘领域的研究热点。本论文围绕医疗数据挖掘在不平衡数据集的应用展开了研究,提出了“先平衡后关联规则挖掘”的方案。具体研究工作如下:1.针对现有的关联规则挖掘研究未考虑医疗数据集中存在的数据不平衡问题,提出了基于K-means的数据平衡处理方法。实验结果表明,相较于已有的SMOTE算法,本论文提出的平衡处理方法具有更好的处理效果。2.考虑到Apriori算法和现有改进算法存在忽视权重以及重复扫描数据库等问题,本论文提出了基于随机森林加权的矩阵关联规则方法。该方法利用随机森林算法为数据集中的各项分配权重,并引入矩阵理论,将事务数据集转化为矩阵形式后进行存储,从而提高运行效率。实验结果表明,提出的方法有效提高挖掘效率,并减少了冗余规则的产生。3.在上述数据挖掘方法的基础上,设计了骨质疏松数据集的整体挖掘方案。在专业医师的指导下,完成了规则的提取和分析,为疾病预防提供了一定的参考价值。
其他文献
近年来,以Docker为代表的容器技术已日益成熟,其编排系统Kubernetes的功能日趋完善,但是Kubernetes现有的弹性扩缩容策略存在一些不足之处。本文分析了Kubernetes现有的弹性策略,并针对其存在的问题提出了优化策略。本文主要工作如下:(1)针对Kubernetes现有的扩容策略对新增Pod(Kubernetes中最小的资源调度单元)进行调度时,未考虑多个Pod部署后集群负载均
在命名数据网络(Named Data Networking,NDN)中,安全基于数据内容本身,内容安全性与内容名称和内容生产者的身份相绑定。但在内容检索和内容验证过程中还存在以下内容安全性问题:1)由于命名机制的不透明,导致内容消费者可能无法获得所需可信数据;2)由于传统信任管理模型中以遍历证书链的方式对内容进行验证的时间开销大,导致内容消费者难以验证内容生产者的身份。针对以上2个问题,本文提出一
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到
命名数据网络(Named Data Networking,NDN)是信息中心网络(Information Centric Networking,ICN)最流行的解决方案之一。在NDN中,缓存策略旨在减少网络总延迟和服务器负载。为了提高网络的内容交付速度和可靠性,现有缓存策略通常在多个中间节点上缓存数据,而这将增加中间节点的能耗与内存开销。在物联网应用中,节点的内存和能量是有限的。而传统的NDN缓存
随着城市人口的日益增多,人群大量聚集的现象愈发普遍,随之而来的群体安全问题引起广泛关注。自新冠肺炎疫情发生以来,人员的聚集性活动将显著增加疫情传播风险,进一步推动了人群分析成为研究热点问题。人群计数及密度估计是人群分析中的重要内容,但是现有研究存在以下几个问题:(1)基于视觉的人群计数方法受到人群遮挡、光照条件等因素的影响,在复杂环境中难以取得令人满意的结果;(2)基于WiFi信道状态信息(Cha
在大数据时代,丰富数据之间存在着隐藏、有价值的关联关系。而如何发现这些隐藏的、有价值的关系一直是数据挖掘领域的研究热点。关联规则挖掘是数据挖掘领域最有效的挖掘技术之一,可直接将数据库中丰富的关联关系挖掘出来,进而指导实际的营销工作。在传统关联规则中存在数据库中各项重要性相同、出现频率相似的前提假设,使得当数据库中的项目频率变化较大时,设置最小支持度较为困难,加权关联规则旨在解决该困难。然而该类算法
网络表示学习旨在通过算法自动学习实体的特征来为下游任务提供信息量更加丰富、更加便于利用的实体表示,目前已经在计算机视觉、自然语言处理和推荐系统等多个领域的研究中得到了大量的应用。图卷积神经网络(GCN)是一种具有代表性的结合了神经网络的表示学习方法,可以针对特定的下游任务学习合理的网络实体特征。但是普通的图卷积神经网络主要侧重于特征在网络结构中的传输和聚合,忽视了实体在特征空间中的相对位置,从而使
手写识别是智能化人机交互的重要课题之一,根据识别的方法可分为在线手写识别和离线手写识别。传统蒙古文作为我国蒙古族的语言文字,是我国少数民族的文化瑰宝。蒙古文的文字识别研究开展于二十一世纪初。如今,蒙古文离线识别的研发方法趋于成熟。在市场上已经出现用于传统蒙古文识别的OCR软件,可以进行蒙古文古籍、印刷体文档识别等任务。但是,对于蒙古文在线手写识别,由于手写文字写法随意、有效数据收集困难、蒙古文手写
随着物联网、大数据、云计算的发展,智慧农业的展开对提高作物的产量和保护生态环境有着重要的意义。随着世界人口的增长和可耕地面积的减少恶化,世界粮食储备量的缺口仍在日益增长。因此,为了保证生态环境的绿色发展,科技兴农显得尤为重要。农业环境信息的采集对农业数字化耕种策略有很大的影响,传感器为环境信息获取的感知设备,功能不同的传感器接口类型繁多。多类接口的不同使用方法增加了农业科技设备安装、运维的难度,而
随着通信技术的不断发展以及各种智能化设备的广泛应用,用户端所产生的业务流量急剧增长。为了应对激增的无线业务流量,网络运营商开始部署超密集站点来保证用户的服务质量,但这会引发新的问题,如网络拥塞或负载失衡等。如果能够预测基站未来的负载,进而根据预测情况调整用户关联策略,这将极大的提升系统性能。因此,本文以实现负载平衡为目标,研究了超密集网络下基于流量预测的用户关联问题。首先,本文阐述了超密集网络以及