可适应不良数据的数据分类若干方法研究

被引量 : 0次 | 上传用户:ALF123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对数据进行分类时,数据本身所具有的某些不良特点,如噪声影响、簇间密度变差显著、类间不平衡和特征维方差各不相同等问题都会影响分类效果。因此,研究适应不良数据特点的分类算法,具有重要的理论和应用价值。目前,虽然有DBSCAN, Trimmed k-means等算法也能处理一些不良特点的数据,但是渴求一种通用的处理所有不良类型数据的分类算法是不现实的,根据数据的特点研究一些有针对性的抗干扰算法逐渐形成一种共识。本文受分子动力学原理的启发,在数据点之间引入引力和斥力的相互作用机制,并结合数据点在原始特征空间和迭代空间的距离、簇密度差和近邻性等信息,提出了仿分子动力学数据聚类法;同样考虑近邻性和特征维方差等因素提出了椭球-平面分类法,并改进了基于核密度估计的数据分类算法。新的聚类方法除是对带噪声、簇间密度变差明显的数据具有好的适应力外,不需要预先设置簇个数,可自动发现数据中可能包含的簇,并解决了引力模型中的黑洞问题。基于核密度估计的数据分类法是实际应用中的常见分类法,它在处理不平衡类时可能出现诸如少数类的数据点错分到多数类的问题。为了使该方法可处理不平衡类带来的影响,并在不平衡类问题严重时也能发挥好的效果,本文对其进行了改进,在基于核密度估计的数据分类法中引入具有较小搜索区间的平滑因子,增强了其对不平衡类的适应力。实验表明这种改进是有效的,它提高了原方法对不平衡类的适应力。事实上,像基于核密度估计一类的分类方法在预测阶段由于可能涉及整个样本集的计算,当数据集规模较大时其预测开销可能会很大。为了达到减小预测开销,同时又使模型兼备包含数据在特征维上方差信息的特点,本文提出了一种新的椭球-平面分类法,它是一个两阶段的监督型分类方法。该方法利用椭球面和平面分类参考面进行分类,由于分类时待测点只需与相应的参考面进行计算,使其时间开销小于基于距离的k最近邻点方法和基于核密度估计一类的方法,并且强化了邻近性原则。以上算法除理论分析外,基于标准数据集都与其他现有方法进行了对比试验,确认了理论推导的正确性,为不良数据分类提供了新的有价值的探索研究。
其他文献
伴随着我国新闻事业的不断深入发展,越来越多的新闻在追求新闻的三个特性的基础上,更加注重新闻的发展能够越来越平民化以及故事化的状况发展。本文就民生新闻在报道过程中的
徽州传统技艺类非物质文化遗产是国家非物质文化遗产的重要组成部分,代表着徽州区域文化的精髓。但由于社会转型、文化习俗等变化,很多宝贵的徽州传统技艺的传承与发展举步维
<正> 影视与文学自有其建立在各自媒体基础之上的本体特征,二者在语言和逻辑上相互交融补充,演变至今,大大丰富了由文字和影像构成的两个不同语言世界的叙事能力。文学的影视
大学生入党积极分子队伍建设是高校加强学生党建的客观需要,对于维护校园稳定和和谐校园建设具有重要意义,针对当前大学生入党积极分子队伍呈现入党动机多元化和队伍质量普遍
《普通高中英语新课程标准》规定:高中阶段的英语课程要有利于学生个性和潜能的发挥,高中英语课程必须具有选择性,力求多样化,为每个学生都提供自主选择和自我发展的机会。因
蔡小荪教授治疗排卵障碍性不孕疗效显著,且具常、变之法,值得探究和学习。分析蔡老治疗排卵障碍性不孕的特色,总结其常法有三:育肾调周,顺应月经周期;通补兼施,应和藏泻生殖;
  研究了耐多药结核病的治疗方法和管理措施,并对不同化疗方案的成本效果进行了分析和比较,为我国制定耐多药结核病的控制策略提供参考。
随着数字技术、多媒体通信和IP宽带网络技术的不断发展,电子商务也逐渐成为主流商业模式之一,传统的家装行业进军电子商务的速度不断加快,国内外家装行业对结合电子商务形式展开
一个政党形象的美丑好坏直接决定民众或选民是否亲近、是否支持、能否认同这个政党,因此,政党形象是一个关乎政党外部影响力和内在战斗力的重要因素。在现代政治体制中,作为