基于混合主题模型的文本聚类算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hnlqlql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,互联网进入了迅猛发展时期,海量信息充斥在人们面前,杂乱而且繁复。如何从这些信息中查找出目标信息,是信息挖掘的研究方向。作为信息挖掘领域中的研究重点,聚类技术备受科研人员关注。
  在聚类研究中,需要面对两点困难:第一、聚类数据预处理中原始类群的初始化,以及初始聚类点数目的选择存在一定难度;第二、如何将高维数据信息展示出来,存在较大问题。综合以上两点,本文使用混合主题模型求解最优主题数,作为聚类算法初始类群个数,同时生成特征空间向量,并降低特征向量的维数,作为聚类算法的初始类群,利用k-means算法进行聚类,最后展示聚类结果的分布情况。
  本文的研究工作有以下几点:
  (1)详细对比聚类发展的历程,描述聚类发展现状和趋势,研究现阶段聚类发展的问题和不足;
  (2)详细说明聚类流程中包含的方法和理论,主要有信息预处理、信息的数学表示方法和聚类算法。通过优化算法流程,提升信息聚类效果;
  (3)提出混合主题模型,深层次处理文本信息。通过文本词语的概率分布,利用LDA主题模型对文本数据进行最优主题数求解,并利用向量空间模型剔除低频词和搭建词语向量空间,借助python语言,实现利用混合主题模型优化的k-means算法。
  相关实验表明,本文的算法优化方式相比于单纯的LDA主题模型,可以极大提升聚类系统的精准性,对信息内容的描述更为清晰,并且优化算法的自动化处理信息数据的效率更高。
其他文献
作为机器人领域的一个分支,外骨骼机器人在负重携行、医疗康复、消防救援、勘探考察等领域具有广泛的应用前景。外骨骼机器人领域涉及到模式识别、智能控制和信息处理等方面的理论和技术。作为一种人机结合的穿戴式设备,在行走过程中会出现动作不协调,外骨骼机器人对穿戴者有拖拽感等问题。而高效率、高精度的人体步态预测和识别算法是解决上述问题的关键因素之一。本论文是在科技部重点研发计划智能机器人专项下针对上述问题展开
在核工业的生产过程中,通常会产生对人体和环境具有危害或放射性的物质。热室是专门处理这类危险物质的封闭型设施。为防止沾染了放射性的空气和气溶胶无控制地向热室外的实验室空间逸散,必须采用机械通风形成室内负压。建立一个具有较高模拟精度的热室环境模型,确定热室通风系统中室内负压随流量变化的规律和空间分布的规律,是优化热室环境调控的前提。论文以单间热室为研究对象,以室内负压为控制目标,基于计算流体力学(Co
学位
相比于其他的生物特征,人脸识别具有非强制性、高通用性等优点,这使得人脸识别技术在安防监控和视觉跟踪等领域都得到了广泛应用。但是在一些特殊应用场合下,比如海关护照验证、公安执法系统,出于采集难度和隐私政策考虑,对于每一个人只能收集到一张人脸图像(例如证件照人脸图像)作为训练样本,称这种情况为单样本人脸识别。在单样本约束下,许多现有的人脸识别算法将无法正常工作。因此论文针对单样本约束下的人脸识别进行研
现有医学研究表明,绝大部分帕金森症患者存在说话发声能力下降的情形,并患有不同程度的语音损伤,语音损伤可作为帕金森症的诊断依据之一。现有条件下,很多医生常用帕金森症统一评分量表(Unified Parkinson’s Disease Rating Scale,UPDRS)来衡量患者帕金森症病情的严重程度。因此,通过采集患者的语音信息并提取重要的语音特征量,根据语音信息与帕金森症病情的联系,进而预测帕
学位
研究人体内部控制机制对人机交互问题至关重要。本文以人体直立抗扰时踝关节肌肉激活的力学机制为研究课题,结合牵张反射控制和力反馈控制建立肌肉力学机理模型,设计并完成直立抗扰实验,对人体肌肉激活的力学机制展开深入研究。本文主要研究工作如下:(1)建立直立抗扰时踝关节肌肉力学机理模型。将人体看作为绕踝关节转动的倒立摆,对人体直立平衡受力分析推导出踝关节力矩计算公式,并根据牵张反射模型和力反馈模型建立肌肉的
学位
股市在市场经济中占据重要位置,但由于其发展变化受到多种因素影响,具有很强的不确定性,从而使股票投资行为存在高风险的问题。这使得如何准确且高效的对股价进行预测成为越来越多金融研究人员关注的热点问题。目前通过用多技术指标(因子)建立数学模型对股票数据进行分析预测是科研人员常用的一种方法。多技术指标的方法没有考虑投资者的情绪对股票走势的影响,但在实际生活中,投资者在做出决策时并非是完全理性的,会受到社交
学位
随着科学技术的发展,工业系统朝着智能化和集约化的方向发展,基于数据的故障诊断方法发展迅速。单分类支持向量方法在工业过程故障诊断中表现出高检测率以及适用于小样本与非线性过程的特点,受到学者广泛的关注。目前关于单分类支持向量机方法的研究存在着一些问题:(1)系统运行工况的变化会导致数据分布不均衡以及现有一类支持向量机方法在应用中模型泛化性弱的问题;(2)支持向量数据描述方法对故障的检测性能依赖于模型的
学位
人脸表情识别技术是在人脸识别技术的基础上诞生的一门新兴的研究领域。其原理是通过计算机识别人脸面部多个器官和肌肉的变化形态来推导出当前人脸的面部表情,进而分析出这些表情所传递的情感信息。相比于最基础的人脸识别技术,表情识别所需要分析的人脸特征更加繁多,这就使得识别难度也成倍增加。因此表情识别对于识别算法的精度要求极高,失之毫厘,谬以千里。近年来,卷积神经网络在深度学习领域异军突起,飞速发展,它在图像
铺排船在内河航道治理工程上应用越来越广泛,随着作业水域条件的不断变化,铺排船的作业方式需要同时兼顾顺水和垂直水流作业,因此对铺排船铺排控制系统的设计也提出了越来越高的要求。而现阶段内河航道治理的铺排船基于单一模糊控制的方式显然难以满足所有工况下的控制精度要求。根据实际调研,目前长江航道局上的铺排船虽然实现了自动铺排作业,但自动铺排控制无法自适应多种工况,在垂直水流和顺水流等不同的施工环境下,铺排船
学位
随着智能化和无人化概念普及,社会对具有自主移动能力的智能设备需求日益显著。同时定位与建图(Simultaneous Localization And Mapping,SLAM)技术和导航技术是实现自主移动的关键技术,但单一的建图或导航功能已难以满足复杂多样的需求。因此,本文设计了一个集建图、导航、避障和远程控制功能为一体的SLAM与导航系统,主要研究内容如下:首先,进行了基于三维激光雷达的SLAM