论文部分内容阅读
如何解决语义异构问题是当前数据集成领域的研究热点。由于本体既准确地描述了概念含义又描述了概念之间的内在关联,能通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和获取知识的能力,因此本体被用来解决语义异构的问题。本文采用本体的方法对数据集成领域几个关键技术进行了研究。本文深入讨论了本体模型的构建,选择描述逻辑对本体进行描述,并讨论了对描述逻辑的扩展。介绍了资源的基于描述逻辑的本体化描述。本文讨论了文档处理的两个过程。对于文档的概念提取,本文采用基于FCA概念构造算法CLCA建立了文档信息概念间的层次关系。对于文档的语义标注,本文首先采用矢量空间模型的方法提取文档的特征向量,然后采用基于模糊C均值的聚类方法使文档找到所归属的类别,对于样本文档到各类聚类中心距离的计算本文提出了一种基于方差的容差距离改进算法。本体查询模型中查询过程为查询的关键词与本体概念之间及本体概念与本体概念之间相似度的匹配过程。本文提出一种基于概念定义、概念结构信息、概念实例综合相似度计算的本体查询方法,采用免疫算法的优化方法使权重的取值自适应调整达到最优。本文介绍了基于向量空间模型的经典相关反馈算法和基于方差分析的权值调整相关反馈算法,并提出一种基于两种相关反馈算法相结合的方法,将新的检索词加入到查询中扩展查询检索式,并对列向量采用方差计算,对能使相关文档和不相关文档区分开的特征重新赋予较高的权重,不仅提高了查准率和查全率,而且提高了查询的效率,实验证明它优越于前两种算法。本文最后给出了一个基于本体数据集成的简单的实验系统。建立一个简单的病毒本体,并设计Web化的查询系统,使用户在查询病毒时能很精确地找到资料,并且可以查看属性特征的概念相似度,找出不同病毒的属性间的关联关系,还可在系统中直接获取更多详细的病毒信息和杀毒方法。