基于LDA-WO混合模型的微博话题有序特征抽取算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:panyufei1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0时代到来,互联网数据爆炸式增长,每天有上亿条新微博产生,远远超出个人信息处理能力,如何从中快速、准确获取有用信息,即主题信息抽取,变得十分必要。当前LDA主题模型,在微博文本主题抽取中得到广泛应用,但仍存以下问题:(1)忽略了不同词语对主题区分能力的不同,导致抽取结果不够准确;(2)抽取到的特征词是无序的,可读性较差,给用户从主题推测文档内容带来困难。因此,本文提出了一种新的微博主题抽取算法,以提高抽取结果的准确性和可读性。本文首先对信息抽取、主题模型和词序相关的理论进行梳理与总结,选择相关部分作为本文的研究基础;然后为了解决LDA模型抽取结果不准确的问题,本文在传统LDA模型的基础上,考虑不同词语对主题区分能力的不同,构建了扩展LDA主题模型;接着,为解决抽取结果可读性差的问题,本文基于词序理论和语言图模型思想,构建了WO词序模型,对主题建模抽取到的特征词进行排序,并基于词间有序的共现信息,设计了OPMI算法,获取了有序特征词组表示主题;之后,将扩展LDA模型与WO模型结合,构建了LDA-WO混合模型,并设计了基于LDAWO混合模型的微博话题有序特征抽取算法,以获取到准确性和可读性更高的微博主题;最后,以真实数据实验验证了本文提出的算法的有效性。具体的创新点有:(1)考虑到不同词语对主题区分能力的不同,基于TF-IDF算法思想,设计了KWFP-ITP算法对LDA模型进行扩展,提高抽取结果的准确性;(2)考虑到LDA抽取结果可读性较差的问题,构建了基于词序理论和语言图模型思想的WO模型,对特征词排序,并基于词间有序的共现信息构建有序特征词组,以提高抽取结果的可读性。
其他文献
目的探讨右美托咪定和七氟醚对老年冠心病非心脏手术患者围术期心肌保护的疗效。方法选取南京医科大学附属淮安第一医院自2016年10月至2017年10月收治的100例合并冠心病的行
戒烟及饮食调节是目前减少胰腺癌危险性的最佳策略.胰腺癌男性比女性多见,并随年龄增长发病率增加.胰腺癌发病率有民族及地区差异.咖啡不是病因.慢性胰腺炎、糖尿病、酒精在
1980年代以来,西方理论的发展进入一个低谷期,伊格尔顿《理论之后》提出应以一种批判务实的姿态对理论的性质和使命进行反思,探究理论难堪大任的原因,对道德、革命、真理等话语做
就网络环境中报刊资源共享的法定许可问题进行了探讨,认为应对模拟环境中报刊转载法定许可制度做出必要的调整,以使网络传播作品有法可依。文章还就报刊转载法定许可在网络环境
莫怀戚的《散步》是一篇玲珑剔透、秀美隽永、蕴藉丰富的精美散文,也是一曲用580字凝成的真善美的颂歌。其中结尾处的一段描写尤为精彩:
期刊
目前软件企业市场间频繁的并购重组及投资活动愈演愈烈,在进行各项投资活动时,投资者及股市对于企业价值的依赖程度也加深。作为企业自身来说,也需要准确评估企业价值以便做出合理及科学的战略决策。EVA作为一种绩效评估工具强调注重企业的长远利益,而非企业的短视效益,同时考虑全面的资本结构,已被学术界广泛认可。但以EVA为基础进行价值研究分析的却不多,对于企业自身提升价值的意义不大。因此,本文以人工智能的龙头
研究了具有强非线性、时变时滞、信号抖振等复杂特性的连续搅拌釜(CSTR)反应过程,提出了一种非线性鲁棒模型预测控制方法.首先在温度平衡点反馈线性化CSTR非线性模型,提出性
介绍采用高水固化材料进行全尾砂高水固化充填采矿法的试验研究,了解并掌握高水固化材料充填体的强度,充填系统,充填工艺,对应用高水材料作为矿山充填采矿法的充填材料具有一定的
任何人类活动对自然环境都有一定的影响 ,体育运动包括娱乐体育和竞技体育也是如此。一些大型综合性运动会如在世界各国举办的夏季和冬季奥林匹克运动会以及各项目的世界锦标
中国的经济增长长期以来主要依赖于物质资源的消耗,缺乏科技创新和技术进步,导致中国经济发展受到资源瓶颈和环境承载力的双重制约。本文根据生产函数理论,利用面板数据模型,