论文部分内容阅读
迅猛发展的现代科技带来了大量的信息资料。如何对这些信息资料进行有效地管理成为了现代科学的一个重要问题。
本文将基于范例推理CBR技术应用到文本自动分类中,并对范例表示进行了研究,实现了基于范例推理的文本自动分类系统和Email自动分类系统。文章针对目前常规的向量空间模型VSM 文档表示方法不能反映概念的问题,提出了用VSM和词共现共同表示文档的方法,用词共现来表达文档的概念信息。将训练集中的每一类文档聚类,聚类后的结果作为范例存入范例库中,然后用最近邻方法进行分类。由于Email具有文本长度短、内容覆盖面大的特点,用关键词匹配的方法很难取得比较好的效果,文章采用潜在语义分析LSA的方法,利用矩阵的奇异值分解理论SVD来获得了Email的概念空间,在此概念空间上表示Email作为范例,再用最近邻方法分类。实验结果验证了本文提出的方法是可行的和有效的。