论文部分内容阅读
随着网络技术的飞速发展和计算机性能的不断提高,机械化生产、网络办公和网上娱乐等各种工业和生活应用得到快速普及,积累了大量的历史数据。这些看似简单的实时存储信息,蕴藏着许多具有指导意义的未知知识,充分利用好这些数据的潜在价值能够有效帮助企业提高办公效率、节约生产成本、实现利益最大化。近年来信息处理技术不断走向成熟,一些改进的文本挖掘方法、特征提取方法和相似性判别算法被许多学者提出,并取得一定成果。但这些方法基本都是针对特定应用领域开展的研究实现,应用范围相对较小,尤其是在中文信息处理领域,限于中文语言特点,一种算法在另一领域应用的适应性比较差,新应用需要研究新的方法达成基本目标。针对目前信息处理算法的局限性,本文提出了基于多种特征属性提取的文本相似性判别思想。基于多特征的文本相似性判别方法是在传统中文信息处理技术的基础上,通过提取文本词条的多种特征属性,针对待处理文本的数据结构和领域应用特点,抽取合适的特征值进行的中文文本的相似性判别,对于提高判定结果的准确性和方法的灵活适应性具有重要意义。本文研究了目前提出的各种经典特征提取方法和相似性计算模型,结合文本的结构特点,基于词频属性分析了部分特征提取方法在相似性判别中的作用。基于多特征提取的领域主题词表生成和相似性判别是本文的研究核心,通过研究数据的结构特点,针对词条和文本的分布属性,本文提出了词频分布熵和文本分布熵两种新的特征提取方法;结合TF-IDF特征属性、Pearson相关系数和词条分布权值等特征提取方法,研究提出了用于规范化表示文本多特征属性内容的二维特征集合;设计了领域主题词表构成和文本相似性判别的总体架构和工作流程,以经济领域为例,实现了领域主题词表的构成,并进行了相似性判别实验,验证了多特征属性提取判别方法的有效性。基于多特征属性提取的文本相似性判别方法基本满足中文信息处理技术的普适性要求,为企业开发不同领域应用提供了灵活的计算手段,能够进一步提高信息处理的应用效果,为企业节省开发成本。因此,基于多特征提取的文本相似性判别技术的研究与发展对于进一步研究和企业应用具有重要的实际意义。