论文部分内容阅读
本文研究了半监督学习算法及其在数据挖掘技术中的应用。首先,本文对机器学习、数据挖掘的相关知识进行了简单介绍,主要对它们的定义、发展历史和相关流程等进行了讨论。其次,介绍了本文所使用的半监督学习算法。最后,以信用卡数据和望远镜数据为例,进行了数据挖掘技术算法实现。在数据挖掘技术中,涉及到机器学习问题。半监督学习是在机器学习领域中同时利用训练样本的类别标记信息和未标记信息的学习方法。监督学习作为机器学习中的一种很主要的方法,基于类别标记已知的前提。在实际问题中,往往需要大的样本集,而提供大量已知类别的样本却存在一定的困难。非监督学习是机器学习中的另一种主要的方法,它不要求类别标记是已知的。但是,与监督学习相比,非监督学习存在着更大的不确定性。由于半监督学习同时利用训练样本的类别标记信息和未标记信息,所以它可以作为传统的监督学习和非监督学习的有益补充。我们所研究的半监督学习算法,就是基于这些基本原理。本文的主要创新点以及研究工作如下:(1)对半监督学习所涉及的理论基础及相关工作进行了研究,以便后文对算法进行相应的改进研究。目前在机器学习界,主要还是传统的监督学习和非监督学习两大类别,半监督学习还属于一个比较新颖的领域。对数据挖掘所涉及的相关工作领域进行了研究,以便后文对数据挖掘应用进行相应的分析研究。(2)给出了一个基于贝叶斯分类的半监督学习算法。该算法基于贝叶斯决策理论,通过概率密度函数进行分布估计,对两类别半监督学习问题进行判定。(3)给出了一个基于FCM的半监督学习算法。该算法来源于非监督学习的聚类方法,采用类别分离的间接方法来度量,并且加入了模糊模式识别方法,可以同时进行特征选择,对多类别半监督学习问题进行判定。(4)给出了在信用卡数据挖掘模型中,加入半监督学习算法作为技术解决方案的方法。该方案使用的算法就是基于FCM的半监督学习算法,同时可以进行特征选择。并且,因考虑到信用卡审批模型的特点,引入了损失函数,从而得到了一种新的半监督学习算法,来进行不同类别用户的判定。对天文数据分析进行了应用,给出了MAGIC望远镜数据的信息分析,这些数据将高能射线信号与背景区分开来。