【摘 要】
:
数据挖掘技术可以从大量的繁杂的数据中快速地发现有价值的数据,其中数据分类技术是一个重要分支和应用。本文在数据密度方面进行分析和研究的基础上重点进行了两部分工作的
论文部分内容阅读
数据挖掘技术可以从大量的繁杂的数据中快速地发现有价值的数据,其中数据分类技术是一个重要分支和应用。本文在数据密度方面进行分析和研究的基础上重点进行了两部分工作的研究。首先,本文分析了数据密度的两个特性。一是每一类别的数据都具有独特的密度信息,它是指在某一业务场景下,不同类别数据的密度值是不同的,因此可以通过这个信息对不同的类别数据进行区分和标识。二是假设部分数据是从整体数据中进行随机抽样得到的,因此部分数据与整体数据的分布是相似的,而且部分数据密度与整体数据密度的比值等于其对应的数据量的比值。其次,第一个重点研究工作是为了提高数据的质量进而提高分类模型的质量,本文提出了一种基于数据密度特性对带标签数据进行异常检测的方法来对原始数据进行“纯化”,该方法本质上是对训练数据的预处理过程,利用数据密度的第一个特性,分别计算每一类别数据的密度,将不符合该类别数据密度特性的数据样本标注为异常并去除;然后使用“纯化”后的数据构建分类器模型。再次,第二个重点研究工作是为了探索新的数据分类算法,本文提出了一种基于数据密度的数据分类算法。该算法利用数据密度的两个特性进行分析计算,分别计算每一类别的数据密度,然后依次寻找与其具有相同数据密度的待分类数据,并将数据划分到该类别中。最后,对本文提出的算法在Windows平台下用R语言进行编程实现。通过实验验证算法的有效性和可行性。
其他文献
目的探讨二甲双胍联合胰岛素泵治疗妊娠糖尿病(GDM)的疗效及对妊娠结局的影响。方法将92例GDM患者分为治疗组和对照组,每组46例。对照组采用胰岛素泵治疗,治疗组采用二甲双胍联
信息素养和思辨能力是高等教育赋予学生的重要的可迁移能力,网络环境下的英语教学不仅能培养学生的信息素养和思辨能力,也为英语教学的深入改革探索了新的路径.
近年来,国内外学者对于城镇化建设以及基础设施建设的关注达到了新高度,必须加快新型城镇化,增强城市交通、通讯、水、电、能源、环境等基础设施建设,从而加强城市综合承载能
国际卫生改革经验显示,开展社区卫生服务是实现医疗卫生领域公平正义、促进卫生资源合理利用、实现人人享有基本医疗卫生服务的有效途径。家庭医生制度是我国深化医改的一项
环境伦理学是当代环境哲学的核心组成部分,目前已经在国际范围内得到了普遍重视。环境伦理学家们在探讨人对于环境的伦理道德根据时,不少地方涉及到审美问题,最突出的例子是
乌克兰危机是历史文化、地缘政治、大国博弈等多重内外因素共同作用的结果。危机不仅给乌克兰本国,而且给全世界带来了新问题、新挑战,它所造成的严重后果正逐步显现出来。乌
本文运用逻辑分析法、专家访谈法、田野调查法、文献资料法等科研方法,并立足于体育产业学科基础上结合民族传统体育学、经济学、市场营销学,传播学、旅游学等学科知识,对太
本论文主要研究美国自1888——1918年美国学制的发展变动过程,主要分三个阶段进行:对八四制和七八年级课程的讨论——学制学术层面的讨论(1888——1899年);对学制与课程的进
近几十年来,中国经济高速发展,城镇化建设逐渐加快,居民用地紧缺与土地使用金昂贵之间的矛盾日益加剧,结构设计师都在尝试寻找更好的结构形式来缓解这两者之间的矛盾。轻钢龙
廉洁文化是随着私有制的产生和腐败现象的出现应运而生的,是腐朽文化的对立面和批判者。为政以德、以民为本、知耻而后勇、治国先治吏等是中国传统廉洁文化的思想精华。传统