基于LDA改进的K-means算法在短文本聚类中的研究

来源 :天津理工大学学报 | 被引量 : 0次 | 上传用户:houwenjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K—means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K—means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提
其他文献
宿舍文化是高校宿舍内呈现的一种特定的文化氛围,随着高等教育改革的不断深化,加强大学生宿舍文化建设显得越来越重要。本文阐述了宿舍文化的内涵,分析了当前宿舍文化建设存
本文分析了传统《市场营销学》课程中的信息产品营销内容明显不足和教学中重理论、轻实践的问题,提出了以"信息产品营销"为导向的《市场营销学》课程改革理念,确立了以现代信
随着人类生活水平的提高和工业活动的增加,大气中的二氧化碳(CO2)浓度不断提升。作为温室气体的主要组成成分,Co2的过度排放导致了一系列的环境问题,因此近年来CO2的捕获与转
新世纪以来,我国税制改革进程不断加快,如何适应新形势对税法教学的新要求,成为税法教师面临的重要课题。在这一形势下,本文首先回顾了我国税制改革的进程,在此基础之上分析
针对目前大学英语写作上学生习惯套用四六级范文而造成他们目前写作水平普遍不高的现象,本文主要根据分别在两个班级进行的一次议论文写作教学对比实验所得结论,浅谈语块理论
  心电信号可以体现自主神经系统的动态调控变化,经分析能够反映睡眠的深度和时期的变化.实际问题中, 由于心电信号的非线性特性以及敏感性,往往使得分析结果不稳定且缺乏
论述了卫星地面站天线伺服跟踪系统的最优跟踪技术。分析了工作原理,并通过与其他跟踪算法比较阐述了最优跟踪算法的优越性。为了提高步进跟踪的快速性和稳定性,描述了利用最
<正>象山位居浙江东部中心,三面环海,两港相拥,海域面积6618平方公里,海岸线924.67公里,占全省14%;岛礁656个,占全省21.4%,居全省县域经济体首位;可用港口岸线61.3公里,其中
8月17日晚,和平区档案局组织全体干部收看了中央电视台新闻联播节目播出的解放军档案馆原馆员、中美军事档案合作办公室专家成员刘义权同志先进事迹,引起了强烈反响。大家一致
社会工作是一个助人自助的职业,对于儿童青少年来说,学校在其生态系统中属于中观系统,它对于儿童青少年的成长至关重要。当我们真正进入学校,将社会工作理论与方法带入学校的