一种改进的概率潜在语义分析下的文本聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zyqtc1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪90年代,受互联网技术和数据库技术迅猛发展的影响,如何从海量的、以文本形式存在的数据中快捷地挖掘出所需信息业已成为当前理论研究的热点和难点。作为文本挖掘的重要分支,文本聚类技术对于互联网舆情监管、信息获取、信息过滤等信息安全领域的研究意义非凡。  现行文本聚类算法多是基于“词袋”模型,其“要表达的”语义意义与“被阐述的”词法之间不满足非双射关系。PLSA模型是LSA模型的概率版演化,借助于坚实的数理基础成功解决了上述问题。但是,由于使用EM算法做最大似然估计,PLSA模型有时会出现过度拟合的现象;另外,PLSA模型参数的随机初始化也造成了处理效果上的波动。  为弥补PLSA模型的上述两个不足,本文首先对EM算法进行改进来处理PLSA的过度拟合问题;然后通过LSA模型参数概率化来初始PLSA模型的参数;最后,将改进后的模型运用到文本聚类上。在此过程中,主要工作研究如下:  ①对当前流行的聚类技术,尤其是向量空间模型,做了深入的研究。在分析当前聚类算法不足后,提出使用潜藏概念进行语义挖掘对信息处理研究的重要意义。  ②结合“词袋”模型,在对LSA模型简要介绍后,本文使用实例详细分析了LSA模型是如何使用SVD分解来完成潜藏语义信息的挖掘的,然后对LSA模型的优点和不足做了总结。  ③针对PLSA模型的过度拟合问题,对LSA模型和PLSA模型在算法基础上进行了比较,依据算法原理通过对EM算法的改进来克服PLSA模型的过度拟合问题。  ④针对PLSA模型参数随机初始化的不足,文中使用LSA模型对PLSA模型进行了改进。首先详细分析了LSA模型与PLSA模型的关系和区别,然后对LSA模型的参数进行概率化处理,最后将处理的结果用以初始化PLSA的模型,从而弥补由随机初始化引起的不足。  最后,将改进后PLSA模型应用文本聚类上,经实验求证后发现新算法更加真实的逼近真实语境,与经典的PLSA模型相比照,本文提出的技术加速了实验过程,并且在聚类准确度和互信息这两个聚类效果评价指标上都有所提升。
其他文献
自从1991年Internet上万维网公共服务的首次亮相,各种各样的信息就以指数级的增长速度充斥于Internet中,人们寻找信息的方式也随之发生了变化。从最原始的手工查找,到书签服务,再
随着信息技术的迅猛发展,人机交互也越来越成为日常生活中一个不可缺少的部分,人机接口技术的发展也越来越快。传统的鼠标键盘等人机交互手段虽然越来越向方便快捷性方向发展
动态三维面形测量技术是三维面形测量技术的一种动态的、实时测量方法。利用动态三维面形测量技术能简单、方便、快捷地对被测物体进行测量,例如:产品的在线检测、铁路钢轨表
近些年来,随着各种火灾事故和紧急事件频繁的发生,人群聚集的公共场合中突发事件的安全疏散仿真模拟越来越受到重视。对于人员密集和流动性较大的场所如学校、化工厂、旅游景
语音合成也称为TTS(TexttoSpeech)是近年来语音技术研究的热点之一。随着人机交互智能化的日益发展,语音合成技术也日趋成熟,其合成出的语音的可懂度和清晰度都达到了不错的效
作为高性能计算平台,多计算机系统能够为我们提供高速计算服务,这在密集型计算应用中显得尤为重要。随着多机系统结点数目大量增加,系统中出现故障结点的概率随之增大。因此,为维
无线传感器网络被认为是能对二十一世纪产生巨大影响力的技术之一,而感知数据管理与处理技术是实现以数据为中心的传感器网络的核心技术。该技术包括感知网络数据的存储、查询
随着计算机和网络技术的发展,将印刷体文档通过光学字符识别技术(Optical Characters Recognition, OCR)转化为电子格式进行存储和管理已经成为重要的信息流通方式。传统的OC
近年来,随着互联网技术快速发展及其普及范围不断扩大,互联网已经逐渐深入到人们的日常生活之中,并成为人们学习和工作生活中的重要组成部分。然而,由于互联网采用自由、开放
微件(Widget)是利用Web技术,通过XML和JavaScript等来实现的应用。随着移动互联网和嵌入式系统的发展,微件逐步开始出现在手机和其它终端上应用,并延伸出移动微件、电视微件