【摘 要】
:
离群点检测是数据挖掘领域一个重要的研究方向,用于揭示隐藏在数据中的重要信息,尤其在医疗诊断,入侵检测网络,信用卡欺诈,传感器敏感事件检测,地球科学等领域被广泛应用。而由于人
论文部分内容阅读
离群点检测是数据挖掘领域一个重要的研究方向,用于揭示隐藏在数据中的重要信息,尤其在医疗诊断,入侵检测网络,信用卡欺诈,传感器敏感事件检测,地球科学等领域被广泛应用。而由于人眼只擅长处理二维或者三维的可视数值数据,所以利用人眼发现高维数据集中的离群点往往是比较困难的。因此我们对离群点检测技术深入研究是必要的。 针对医疗诊断数据的离群点检测方法进行了深入分析与仿真实验研究,取得了具有理论意义和应用价值的结果。 首先,针对给定的医疗数据集中离群点显著地偏离数据集中的其余对象,本文提出一种基于平均距离和平均密度的离群点检测的改进方法。该方法对数据集进行全局离群点检测,并利用平均距离求得每个数据对象的平均密度,随后计算平均邻域邻居数进行数据划分,最后用选择算法对数据对象进行筛选。 其次,针对数据集中离群点局部远离数据集的大多数,本文提出了一种基于图论的离群点检测的改进方法。该方法使用平均距离作为权重来度量每个数据对象的累积入度值,并通过特定的阈值T来划分疑似离群点数据集,最后用选择算法对数据对象进行筛选。 第三,针对数据集离散分布的特点,本文提出了一种基于K-S双样本检验的离群点检测的改进方法。该方法基于采用两个新的累积分布函数来检验,分别是来自数据集同一数据对象的K个最邻近距离的累积分布函数以及这K个点的两两距离的累积分布函数,分析它们的相似程度来判断它们是否属于同一分布。 仿真实验表明,三种离群点算法的改进都能针对特定的医疗数据集进行准确度为80%以上的离群点检测,并维护一个较低的误检率,其综合性能适用于数据挖掘的应用。
其他文献
随着社会经济全球化发展,企业竞争由产品竞争转向市场竞争,市场竞争的关键在于争夺客户资源,如今,客户已经成为企业生存发展的重要资源。为了维持企业的长期发展,增加企业的
Euclidean最短路径(ESP)问题是计算几何领域的经典问题。本文针对LR可视多边形中ESP问题的求解算法研究,设计出一个简单、可行的求解算法,为解决一些实际应用问题(如巡视员问
科技的进步,推动农业机器人技术迅猛发展。在农业生产中,采摘是一个重要的环节,它的工作量约占整个工作量的一半以上。采摘机器人作为农业机器人的一个主要的类型,能够提高劳动生
Internet 的高速发展使得互联网逐渐渗透到人们的日常生活中,对社会的方方面面产生了深远的影响。权威机构的调查显示,互联网用户数量每年都在飞速递增,并且中国的网民数量
随着信息技术的高速发展,云计算已经成为了产业界、学术界以及政府等各界关注的焦点。至今为止,云计算凭借其自身的便利性、高效性和高扩展性等优势吸引了众多企业的目光。云
总体经验模态分解(Ensemble Empirical Mode Decomposition,简称EEMD)是针对经验模态分解(Empirical Mode Decomposition,简称EMD)中存在的模态混叠问题提出的一种非平稳信号
随着大数据量计算技术的发展,基于数据处理的应用受到广泛关注,而数据源的结构也显示出多样化的趋势,这些数据中不仅有传统的非实时的、静态结构化数据,还有很多实时的、动态产生
随着信息技术的发展,网络上数据以指数级在增长,出现信息过量的情况。这种状况使得用户不得不花费大量的时间和精力寻找有用的信息。在此背景下,推荐系统应用而生,帮助用户走
在实际生活中,摄像机经常被安装在停车场、交通路口、机场、银行等地方进行监控。由于需要配置人员来进行持续的监控导致这是一项乏味并且耗时的工作。如果能够开发一套自动化
无线传感器网络技术是现代技术研究的热点方向之一,有着重大的应用前景和科学研究意义。但是无线传感器网络中的节点往往带宽和能量有限、计算和存储能力较弱,传统无线路由协