论文部分内容阅读
随着网络信息技术的飞速发展,能获得的文本信息集合出现了爆炸性的增长。人们在为如此海量、丰富的文本资源欣喜之余,又不得不为难以驾驭如此庞大的信息而惋惜。文本挖掘技术就在这样的背景下应运而生并受到越来越多的关注。作为一个新的正在迅速成为热点的研究领域,文本挖掘致力于从庞大的文本资源中找到“金矿”,为用户服务。文本挖掘从数据采集到知识的发现是一个复杂而又繁琐的过程。要经历数据的准备、模型的建立、文本的挖掘、结果的展示等一系列的过程。本文就其中的关键步骤和难点问题进行了研究,主要内容如下:本文首先研究了向量空间模型建模的整个过程,针对两个标准的benchmark数据集TanCorp(中文)和Reuters(英文)建立了向量空间模型,作为后续研究的基础。同时,针对向量空间模型所使用的关键词集过于庞大而导致的模型高维性问题,引入关联规则方法对其进行简化,并给出了对文本数据进行关联分析的具体实现方案以及当有新的文档到达时的增量更新方法。本文重点研究了文本数据的聚类方法。对基于非负矩阵分解的聚类相关理论和算法进行了深入地分析和探讨。为了进一步提高非负矩阵分解方法的收敛性能,提出了两种新的基于矩阵变换的非负矩阵分解算法,并从相关理论分析和性能仿真的角度对其进行了验证。仿真试验表明,基于矩阵变换的NMF算法,具有和现有方案类似的计算复杂度,却可以有效提高非负矩阵分解的收敛速度。同时,针对文本数据中高度相关难以划分的问题,引入核聚类方法,在对核函数的基本理论进行总结的基础上,深入研究了核聚类算法、模糊核聚类算法以及基于语义核的局部自适应聚类算法,在此基础上,将高斯核与语义信息结合起来,提出基于高斯语义核的局部自适应聚类算法,以提高核聚类算法的性能。并分别结合人工生成数据集以及Reuters文本数据集合进行了仿真评估。在此基础上,针对文本数据中存在大量层次类别关系的问题,研究了划分和凝聚相结合的层次聚类思想,重点分析了基于NMF的层次聚类算法,对于如何确定层次聚类的数目进行了讨论,提出了两种不同的基于NMF的层次聚类处理方法。结合TanCorp多层数据集的研究和仿真表明:基于特征-文本矩阵V进行凝聚层次聚类的算法可以在不影响聚类效果的前提下大大降低计算复杂度。此外,还研究了聚类结果的两种表示方法,对基于NMF的聚类表示和基于testor理论的聚类表示进行了深入的分析。最后,将所研究的文本挖掘方法应用到科研信息领域,设计并架构了用于进行科研信息自动建议的原型系统,并给出了初步的仿真结果。