论文部分内容阅读
文本特征提取是从文本信息中抽取能够代表此类或某文本的信息。特征提取方法研究的目的是过滤数据噪音特征、选择最优的特征子集来优化文本的表示,实现文本数据降维并提高降维文本表示的类可分性。文本的特征项的选取是文本挖掘、信息检索的一个基本的和重要的问题。特征提取技术分为特征选择和特征抽取两类。特征选择是指按照某种标准,从原始特征项集合中挑选出一部分特征词构成子集,作为新的特征集。特征选择具有容易理解、计算量小的优点,其主要缺点是假设各个特征项之间是相互独立的,不能有效地解决近义词混淆和多义词歧义特性对分类准确性的影响。特征抽取是指通过特定的映射函数对原始特征空间进行旋转、伸缩等变换,重构新的特征项。特征抽取避免了特征选择中各个特征项相互独立的假设,考虑了特征项之间的相关性,强调了特征提取中对文本内容的理解。但由于这种方法需要对高维的原始特征空间进行各种映射与变换,导致时间复杂度变高,降低了算法效率。本文提出一种CM-RS文本特征提取方法。该方法首先使用李德毅院士提出的定性和定量转换模型——云模型对原始特征空间进行初步筛选,然后使用RS语义分析模型对筛选后的特征空间进行特征提取。基于云模型特征选择可以提高RS语义分析模型的处理效率。构建特征词之间的相关度与相似度的RS语义模型考虑特征抽取中避免近义词与多义词对文本特征的影响。文本特征提取首先要对文本进行科学的抽象,将一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,建立它的数学模型,计算机通过对这种模型的计算和操作来实现对文本的识别。本文使用基于互信息的特征分布矩阵描述方法将文本转化为可处理的结构化形式。在此基础上,使用云模型进行特征选择,用RS语义分析模型方法进行特征抽取。文中将CM-RS特征提取方法用于文本分类实验,实验结果表明云模型特征选择与RS特征抽取结合的文本特征提取,在提高文本分类的准确度和降低处理的时间复杂度方而效果明显。