论文部分内容阅读
专题知识库是利用信息技术对某一特定主题或领域的知识进行有序化组织、展现和管理的知识应用系统。随着人们越来越多地关注于如何从海量信息中快速地发掘精准信息,全面涵盖特定领域重要信息的专题知识库成为了当前的研究热点。文本聚类作为一种无指导的文本自动组织方法,是专题知识库中各类资源有序化组织的重要手段。然而,由于专题知识库具有富含语义关联、知识结构多层次性等特征,传统的基于向量空间模型(VSM)的文本聚类方法较难满足专题知识库中文本自动组织的要求。因此,本研究结合专题知识库的特点,提出了一种基于领域本体的多层次文本聚类及其可视化方法,以实现专题知识库中文本信息的多层次自动组织,提高专题知识库的管理效率,并进一步优化其用户体验。首先,本研究对当前文本聚类及其可视化研究的现状进行了梳理,对常见文本聚类及其可视化方法的一般流程和关键技术进行了总结与分析,以帮助读者快速地了解各类常用文本聚类与可视化方法及其优势与不足。其次,根据专题知识库中文本组织富含语义关联且呈树状结构的特点,本研究提出了一种基于领域本体的多层次文本聚类方法。与直接开展多次聚类分析不同,该方法利用领域本体的语义优势,将文本表示为不同抽象度的特征向量,并结合各层级文本表示的特点,对文本相似度计算进行了优化,从而实现了符合专题知识库特点的多层次文本聚类,为提高知识库中文本自动组织效率提供了一定的借鉴。再者,本研究结合用户需求与多层次文本聚类分析的特点,提出了一套适合专题知识库的聚类结果可视化方案。该方案提出了一种基于tficf(词频-倒排类簇频率)算法与共词分析法的主题发现策略,并在利用多维尺度分析法(MDS)开展了可视化降维处理的基础上,结合树图与散点图的可视化展现形式,帮助用户快速、直观地了解专题知识库中文本资源的分布情况及其关键主题,从而进一步提升了专题知识库的用户体验。最后,本研究以中华烹饪文化知识库为例,验证了本文所提出的基于领域本体的多层次文本聚类及其可视化方法的可行性,并在该知识库中实现了文本资源的多层次自动组织与结果展示。