论文部分内容阅读
自上世纪90年代,受互联网技术和数据库技术迅猛发展的影响,如何从海量的、以文本形式存在的数据中快捷地挖掘出所需信息业已成为当前理论研究的热点和难点。作为文本挖掘的重要分支,文本聚类技术对于互联网舆情监管、信息获取、信息过滤等信息安全领域的研究意义非凡。 现行文本聚类算法多是基于“词袋”模型,其“要表达的”语义意义与“被阐述的”词法之间不满足非双射关系。PLSA模型是LSA模型的概率版演化,借助于坚实的数理基础成功解决了上述问题。但是,由于使用EM算法做最大似然估计,PLSA模型有时会出现过度拟合的现象;另外,PLSA模型参数的随机初始化也造成了处理效果上的波动。 为弥补PLSA模型的上述两个不足,本文首先对EM算法进行改进来处理PLSA的过度拟合问题;然后通过LSA模型参数概率化来初始PLSA模型的参数;最后,将改进后的模型运用到文本聚类上。在此过程中,主要工作研究如下: ①对当前流行的聚类技术,尤其是向量空间模型,做了深入的研究。在分析当前聚类算法不足后,提出使用潜藏概念进行语义挖掘对信息处理研究的重要意义。 ②结合“词袋”模型,在对LSA模型简要介绍后,本文使用实例详细分析了LSA模型是如何使用SVD分解来完成潜藏语义信息的挖掘的,然后对LSA模型的优点和不足做了总结。 ③针对PLSA模型的过度拟合问题,对LSA模型和PLSA模型在算法基础上进行了比较,依据算法原理通过对EM算法的改进来克服PLSA模型的过度拟合问题。 ④针对PLSA模型参数随机初始化的不足,文中使用LSA模型对PLSA模型进行了改进。首先详细分析了LSA模型与PLSA模型的关系和区别,然后对LSA模型的参数进行概率化处理,最后将处理的结果用以初始化PLSA的模型,从而弥补由随机初始化引起的不足。 最后,将改进后PLSA模型应用文本聚类上,经实验求证后发现新算法更加真实的逼近真实语境,与经典的PLSA模型相比照,本文提出的技术加速了实验过程,并且在聚类准确度和互信息这两个聚类效果评价指标上都有所提升。