论文部分内容阅读
随着Internet的迅猛发展,大量的电子信息成几何级数增长。面对浩瀚的信息海洋,如何从中间获取自己所需的信息,成为越来越多的人的迫切要求。文本信息在电子信息中占有很重要的地位,文本信息检索和分类技术的研究,有着重大的理论价值和现实需求。
本文面向大规模的中文文本,在文本检索和文本分类方面展开了研究与探索:
首先,针对文本检索,作了相关的研究。中文文本检索有多种模型:布尔逻辑模型、基于统计的VSM模型、基于概率的模型、基于语义网络的模型等。在分析这些模型的基础上,本文利用概念网络作为工具,对文本检索进行了探讨。文中阐述了如何利用概念网络组织领域知识,以及如何把领域知识应用到文本检索中的方法。
其次,对文本自动分类技术作了研究。目前大多数文本分类系统都是基于VSM模型的,即将文本表示成向量,然后通过计算向量间的距离决定向量类别的归属。本文针对VSM模型一般不考虑特征间的关系和文本结构方面的关系而导致分类不准的问题,对基于知识树的文本分类方法进行了研究。
该方法模仿人类在进行分类时的行为,以知识树所组织的知识作为分类的依据。在计算文本与类别的关联度的过程中,考虑了文本的结构方面的信息,对关键词进行动态加权。实验结果表明,相较于基于向量空间模型的KNN分类方法,这种分类方法能明显地提高分类的召回率。同时,实验结果也指出,该方法的分类效果可以在知识树进一步完善的情况下得到进一步的改良。