论文部分内容阅读
互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而,大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长,其规模巨大且形式多样,不仅给网络空间数据的存储带来了压力,同时降低了数据价值的利用密度,呈现出“数据丰富而知识缺乏”的窘态。如何对数据压缩存储,如何从庞大的网络空间中寻取到满意的信息成为目前迫切需要解决的问题。本文选取学术论文作为数据对象,提出了一种文本指纹提取方法和文本粗分类算法,进而达到数据的压缩表示和有效组织管理的目的。首先,本文提出了基于潜在语义分析的文本指纹提取方法。该方法是针对目前指纹提取方法语义缺失问题的一种改进。该方法主要用于学术论文正文部分的语义指纹提取,通过奇异值分解对原始文档进行潜在语义分析,挖掘原始文档的潜在语义特征,然后根据随机超平面原理将保留的语义特征转换成二进制数字指纹,得到高维原始文档的低维语义指纹表示。其次,设计了一种基于融合表示的文本粗分类算法。该算法主要是基于学术论文梗概(题目、摘要、关键字)和正文两大部分融合表示的聚类,是K-means算法的一种改进。该算法下每篇文档都被主题向量和语义指纹所表示,聚类过程中每次迭代的簇中心均采用数据集中的真实文档,并作为原文档集的一个原型。此外,算法采用余弦距离与汉明距离融合的计算方法计算文档与各类中心的模糊隶属程度,并将文档归到具有最大隶属度的类别,完成数据集的粗分类。最后,为了给后续搜索访问等操作提供有利信息,本文设计了基于原型的文档分类算法。该算法根据集外文档与各原型间的相似度来判断是否对其进行归类以及归到哪一类等处理。实验结果表明,本文提出的基于潜在语义分析的文本指纹提取方法与常用的向量空间模型表示方法及Simhash方法相比,所提取的指纹精度更高,更能体现文本的语义信息。另外,本文基于融合表示的文档粗分类方法解决了原始K-means聚类算法的大类问题,对数据集中各领域文档的F值均达到80%以上,能够得到较好的类结构。基于原型的集外文档分类方法,在与原型同领域文档间具有较高的正确率,对其它领域文档具有较高的拒识率,可以对集外文档进行正确辨识,达到粗分类目的,有利于文档集的组织和管理。