论文部分内容阅读
语义Web不是一种全新的Web,而是对当前Web的扩展,其中的信息被赋予明确的含义,使机器和人能更好地的协同工作。语义Web的基础之一是本体,为了让机器能够理解Web的内容,需要建立本体,并利用本体中定义的概念作元数据来标记Web的内容。语义概念的相似性度量一直以来都是人工智能领域的研究热点。人工智能领域的相似性度量模型致力于从特定的知识表述中计算出概念间的相似性。本论文以文本分类的机器学习理论为基础,提出了本体概念匹配的整体框架,借助改进的贝叶斯(Bayes)分类器和支持向量机分类器分析本体中的个体实例特征,建立了一个基于实例的本体概念相似性度量模型,给出了基于文本分类的概念相似性度量算法,并提出了概念匹配后概念的可满足性和本体一致性的检测策略。最后,本文将提出的本体匹配理论用于网络教育的概念型知识学习系统,使论文的研究成果体现在该系统中。现将论文的主要研究内容概括如下:①介绍和综述论文的理论基础。主要包括语义网、本体论、文本分类技术、描述逻辑推理及其研究现状。②基于Bayes的文本分类模型的研究。朴素贝叶斯分类算法是一个简单、有效而且在实际使用中很成功的分类算法,其性能可以与其他典型分类算法相媲美,在某些场合还优于其他分类器。本文在引入互信息等因素后,提出了基于特征相关性的朴素贝叶斯文本分类改进模型,对于大部分类别的资源,改进后的朴素贝叶斯算法都能得到较高的准确率和召回率,同时该分类器对各类别资源分类性能提高的效果不一样。事实上,该模型引入了语义特征,建立了传统特征与概念、概念与类别的映射关系。③基于支持向量机(SVM)的文本分类模型研究。基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,具有理论完备、全局优化、适应性强、推广能力好等优点,是机器学习中的一种新方法和研究的新热点。它使用结构风险最小化原则,综合了统计学习、机器学习和神经网络等方面的技术,在最小化经验风险的同时,有效地提高了算法泛化的能力。它与传统的机器学习方法相比,具有良好的潜在应用价值和发展前景。本文针对基于二叉树的多分类支持向量机自身存在的问题,提出了改进二叉树结构生成的思想,最后对这种改进的树结构算法进行了设计及分析。改进后的BT-SVM多分类方法有比较高的分类准确率,它用于多类文本分类达到了预期的效果。④本体概念相似度计算算法。在分析了目前常用的本体匹配技术的基础上,提出了基于文本分类技术的本体概念匹配的框架。算法的主要思想是利用本体中概念的文本实例集,通过训练获得概念的文本分类特征。再对本体概念的文本数据集进行交叉学习分类和计算并获取了两个本体所有概念对的相似度评估矩阵。为了充分利用多种分类器的优势,在概念匹配过程中,给出了利用概念对相似度的突出度策略,克服了单一文本分类器对某些文本数据不敏感的问题,同时还给出了利用本体半结构信息来帮助分类的策略。根据对真实Web数据集的测试结果,表明本文提出的本体概念匹配算法具备很好的匹配精度。⑤基于描述逻辑及其推理机方法。它能够实现本体一致性和可满足性的全面测试和分析。然而要使用推理机实现本体测试的前提是需要完成实例数据的匹配和关联的处理,这将对本体匹配方案的评估带来巨大的工作量,本文提出了面向语义的本体匹配评估策略,进一步拓展了本体概念之间的关系,并对实际工程应用具有重要的参考意义。⑥概念型智能学习系统模型(CILSM: Conceptural Intelligence Learning System Model)。目前,网络教学系统促进了教育的发展,但其本质是传统教学的扩展,而不能完全适应信息社会终身学习的需要,因为它们只是一个新型的学历教育系统。由于Web是当前最丰富的学习资源,所以本文提出的CILSM系统则是广泛利用Web的资源,并将这些资源(知识)的固有属性和教学属性,采用计算机可处理(可读、可推理)的方式进行组织,形成“知识空间”(Knowledge Space)。知识空间用资源描述框架(RDF/RDFS)元数据描述,并用Web本体语言(OWL)描述的本体组织知识。知识空间包括多个本体,而本体匹配是系统亟待解决的问题,本文提出的本体匹配框架和算法在一定程度上解决了该问题。