半监督学习及其应用研究

被引量 : 40次 | 上传用户:emydisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了半监督学习算法及其在数据挖掘技术中的应用。首先,本文对机器学习、数据挖掘的相关知识进行了简单介绍,主要对它们的定义、发展历史和相关流程等进行了讨论。其次,介绍了本文所使用的半监督学习算法。最后,以信用卡数据和望远镜数据为例,进行了数据挖掘技术算法实现。在数据挖掘技术中,涉及到机器学习问题。半监督学习是在机器学习领域中同时利用训练样本的类别标记信息和未标记信息的学习方法。监督学习作为机器学习中的一种很主要的方法,基于类别标记已知的前提。在实际问题中,往往需要大的样本集,而提供大量已知类别的样本却存在一定的困难。非监督学习是机器学习中的另一种主要的方法,它不要求类别标记是已知的。但是,与监督学习相比,非监督学习存在着更大的不确定性。由于半监督学习同时利用训练样本的类别标记信息和未标记信息,所以它可以作为传统的监督学习和非监督学习的有益补充。我们所研究的半监督学习算法,就是基于这些基本原理。本文的主要创新点以及研究工作如下:(1)对半监督学习所涉及的理论基础及相关工作进行了研究,以便后文对算法进行相应的改进研究。目前在机器学习界,主要还是传统的监督学习和非监督学习两大类别,半监督学习还属于一个比较新颖的领域。对数据挖掘所涉及的相关工作领域进行了研究,以便后文对数据挖掘应用进行相应的分析研究。(2)给出了一个基于贝叶斯分类的半监督学习算法。该算法基于贝叶斯决策理论,通过概率密度函数进行分布估计,对两类别半监督学习问题进行判定。(3)给出了一个基于FCM的半监督学习算法。该算法来源于非监督学习的聚类方法,采用类别分离的间接方法来度量,并且加入了模糊模式识别方法,可以同时进行特征选择,对多类别半监督学习问题进行判定。(4)给出了在信用卡数据挖掘模型中,加入半监督学习算法作为技术解决方案的方法。该方案使用的算法就是基于FCM的半监督学习算法,同时可以进行特征选择。并且,因考虑到信用卡审批模型的特点,引入了损失函数,从而得到了一种新的半监督学习算法,来进行不同类别用户的判定。对天文数据分析进行了应用,给出了MAGIC望远镜数据的信息分析,这些数据将高能射线信号与背景区分开来。
其他文献
当前,部队停止有偿服务工作正进入纵深攻坚阶段,面对艰巨复杂的情况,各级应善于运用法律武器推进停偿工作,确保扎实、稳妥和有序地完成这项政治任务。$$用相关法律条款解除有
报纸
伴随铁路轨道交通的迅猛发展,线路上部建筑正得到不断强化和完善。但同时,在一定的历史背景和自然条件下修筑的普通铁路依然存在着某些病害。以嘉镜线山区小半径曲线地段的线
本文依据2000-2006年的调查资料,研究了长江上游鱼类资源的现状及早期资源状况,探讨了长江上游鱼类资源变化趋势及三峡水库蓄水对其产生的影响,以期为长江上游鱼类资源的保护
本文分析了资本结构、多元化战略、企业绩效三者之间的关系,并以上海证券交易所制造业上市企业为例做了实证研究。本文重点考察了多元化战略对资本结构的影响,考察了直接投资
董其昌绘画成就的影响却经久不息,尤其是“南北宗”论左右画坛三百余年,至今仍有影响。于书法董其昌又与邢侗、米万钟、张瑞图并称为“晚明书法四家”。且精通“禅学”,把“
丁腈橡胶(NBR)由于其优异的性能被广泛用于汽车、航空航天、石油开采、石化、电线电缆、印刷和食品包装等领域,其最大的用途之一是生产阻燃输送带。阻燃输送带要具备良好的阻
矿业在河南省经济中占有重要地位,随着经济的持续高速发展,今后若干年内对矿产资源的需求不断增长,尤其是铁矿石需求量的快速增加,已造成全球铁矿石供不应求,铁矿石价格不断
目的:探讨非体外循环下冠状动脉搭桥术中护理配合的意义。方法:对95例手术患者的术中护理配合进行总结和分析。结果:95例患者均安全接受手术,术中手术护理密切配合流畅,有效缩短
目的探讨Bmi—1基因在胃腺癌细胞株,胃癌组织和癌旁组织以及胃癌患者外周血中的表达水平及其与临床病理特征的关系,研究Bmi—1基因与胃癌临床病理因素的关系及意义。方法收集
碳纳米管以其极高的长径比和超强的机械性能成为极具应用潜力的一维纳米材料,它的研究一直是国际上众多科学家关注和研究的前沿性课题。短碳纳米管由于其具有尺寸短和高化学