基于改进隐式狄利克雷分布算法的新浪微博话题检测

来源 :工业控制计算机 | 被引量 : 0次 | 上传用户:sunzui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一个基于改进主题模型的微博话题检测算法。由于传统的主题模型主要适用于传统媒体文字,对短文本的处理效果不是很好。针对微博文本特有的数据结构,在文本聚类时先加入转发特征以及评论特征权重预处理方法。在此基础上,改进了传统的隐含狄利克雷分布主题模型用来提取热点微博数据中的主题。实验证明,与传统相比方法,改进的主题模型解决了传统主题检测方法在应用于短文本时存在的高维稀疏问题。
其他文献
纪念类视听新闻作品是以纪念某人、某物、某日等为选题依据的以特殊意义相区分的报道类型,作品类别主要包括纪念人、纪念事、纪念日、纪念地、纪念物等。本文从叙事视角、叙
随着工业4.0和智能制造大数据时代的快速发展,公司为了提升产品的竞争力,给客户提供更多的增值服务,开发盾构机远程监控和故障诊断系统,电机的运行数据是该系统重要的组成部
传统蚁群算法因为结构简单易于实现并且具有较强的鲁棒性,在很多寻优问题的求解中都得到了广泛的应用。但是蚁群算法也存在有自身的不足,在寻优过程中常常会出现一种停滞行为
“五四”新文学第一个十年中国现代文学批评及文学研究的理论资源,其来源是多方面的,译介的范围既有对日本、欧美等文艺思想和文学理论的输入,也有对其他一些弱小民族的文艺思想
在中国特色高水平高职学校和专业建设计划的时代大背景下,高职开展创新创业教育,可从国家、社会、高职院校层面赋能“双高计划”的建设与发展。基于双创教育赋能“双高”建设
曹雪芹与梁启超在百年之隔的两个时代在小说创作观上均有突破与创新.曹氏的"适趣"说与梁氏的"政治"说是他们对创作理论的突破,而"适趣闲文"与"理治之书"是他们创作实践中创新
新媒体时代,万物互联互通,以互联网为基础的媒介形式更加多样,受众的信息选择也更丰富多元。依托于纸媒的副刊在新媒体时代遭遇了冲击,其转型发展举步维艰。基于此,本文从渠