论文部分内容阅读
随着信息技术的迅速发展,各种学科的信息也在随之迅速膨胀,人们迫切需要这些特定领域的信息检索与管理工具,特定领域文本分类成为当前研究热点。目前,特定领域文本分类主要是在传统文本分类的基础上,利用已有的特定领域知识库扩展文档特征。如何提取领域相关特征是其主要难点之一。
本文综述了现有特定领域文本分类系统,详细介绍了特定领域文本分类系统的设计思想与实现细节,设计并实现了一套特定领域文本分类系统,针对如何提取领域相关特征的问题,提出了一种基于领域相关术语提取的特征选择方法,改进了术语提取方法,并且分析了各系统组成部分。本文的工作主要包括:
·本文综述了现有特定领域文本分类系统,提出了特定领域文本分类系统的体系结构。
·本文提出了一种基于领域相关术语提取的特征选择方法,该方法具有以下优点:(1)提取出来的特征与领域密切相关,提高了分类效果;(2)大大降低了特征空间维数,提高了系统运行性能;(3)由于该方法使用基于语料库对比的术语提取方法,不依赖任何特定领域知识库,从而使系统具有很强的通用性,能轻松应用于各个领域。
·本文根据词语搭配分布,改进了传统的基于语料库对比的术语提取方法,使术语提取方法兼顾了对语言结构的分析。
·本文详细分析了预处理、特征选择、二级分类器等系统组成部分对分类效果及系统性能的影响。
·本文设计并实现了一套具有很强通用性的特定领域文本分类系统,该系统参加了TREC2005Genomics项目Categorization任务的评测,在四个子任务中取得了两个第一的好成绩。