论文部分内容阅读
本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继续发展的一个很大的瓶颈。机器学习的一个很重要的应用就是网页,文本数据的分类。为了能够对网页数据进行高质量的分类,需要大量的文本训练集。本文注意到一个新的趋势,就是随着互联网的飞速发展和广泛应用,越来越多的服务和应用出现在互联网上。这些数据不仅仅是平面的文本数据,同时带有类标,结构等等格外的信息。考虑到任何人都可以很容易的得到大量的互联网数据,本文解决的的问题是,通过互联网知识对机器学习的过程进行监督,从而减少机器学习算法,特别是文本分类算法对人工标注数据的依赖。为了达到这样的目的,本文从两个角度来解决问题。第一是设计知识型数据的获取算法,第二是设计知识型数据进行监督学习的算法。对于知识型数据获取的研究算法,本文研究如何将平面的,没有任何额外信息的网页数据进行自动标注,从而使得其成为知识型数据。本文的研究思路是依照网络上大量存在的层次结构,对网页数据进行自动分类。研究的难点是,待选择的类的数量非常庞大,传统的机器学习和分类算法无法取得很好的效果。与此同时,基于知识型的算法要求很高的效率,对于算法的设计有很大的限制。本文在这方面取得了一定的突破。本文注意到朴素贝叶斯分类器具有速度快,易实现,通用性强等在当前问题中非常需要的特性。虽然传统朴素贝叶斯分类器的效果非常差,通过深入挖掘朴素贝叶斯分类器在大规模类空间的特性,找到了朴素贝叶斯分类器存在的两个严重问题,通过修正这些问题,使得朴素贝叶斯分类器的效果得到了大幅度的提升。从而能够提供可靠的知识型数据。对于设计知识型数据进行监督学习的算法,本文研究如何利用带有类标信息的知识型数据,来取代文档分类中的训练集,达到相当于有训练集的学习效果。研究的难点是互联网知识型数据涵盖大量的语义信息,而待分类的文本的语义信息比较集中。为了克服这样一个差距,本文设计了一个两阶段风险最优化算法。在第一阶段中,该算法生成对于待分类文本最相关的知识型数据。在第二阶段,知识型数据与待分类数据进行深度交互,从而挖掘出知识型数据中对于学习任务有用的信息。整个学习的过程是在风险最优化框架下,利用概率模型进行建模。该算法在实验中取得了较好的结果。不仅大大高于对比试验,同时能够取的和使用标注数据集的分类算法相近的表现效果。