基于名词短语提取与词条权重分析的话题提取算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ziyutianxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网规模的不断增长,网络已经成为人们获取信息的主要渠道,然而,在信息爆炸的同时,也使人们在获取信息的时候变得更加无所适从。信息疲劳、信息焦虑与信息过剩成为我们在信息时代遇到的新的问题。如何有效的搜索、组织和呈现信息已经成为信息时代的一个亟待解决的问题。话题模型作为一种有效整合信息的手段,成为近年来自然语言处理领域的热点。本文主要针对概率话题模型,将名词短语提取和词条权重计算引入话题模型,以期望能够提高话题模型对语料库的拟合程度和泛化能力。首先,将名词短语提取引入了话题模型。通过词性标注、句法结构分析,提取文本中最短的名词短语。将文本中的名词短语视作一个整体进行分析,从而保证了名词短语中的单词由一个话题生成,即保证了语义相近的单词由同一个话题生成。其次,针对现实文本中噪声较大的问题,提出了一种基于语义网络的短语权重计算方法。通过构建文本的语义网络,借鉴马尔科夫随机游走的思想,计算节点到节点的转移概率。通过动态的去除节点的方法,计算网络中节点之间转移概率的变化,得出该节点在网络中的权重,即对应词条在文本中的权重。将加权后的文本作为话题模型的输入,能够有效提高话题模型的性能。最后,将名词短语提取与词条权重计算进行整合,先进行名词短语提取,然后计算文本中的词条权重,将处理后的文本输入话题模型,从而得到有意义的话题。
其他文献
传统的身份验证方法已经不能满足现代信息社会的要求,生物特征识别技术以其特有的安全性,可靠性和有效性等越来越受到人们的重视。人脸识别和指纹识别作为两种最常用和方便的
近年来,DDoS攻击已经成为了网络上广泛传播的问题。这种攻击方式利用网络中大量的傀儡机向受害机发送大量的无用分组包,耗尽受害机CPU资源或者网络带宽,给网络安全带来很大的威
近十几年来,随着互联网的快速普及与发展,网上的应用越来越丰富,信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而,面对着如此海量的信息
本文详细分析了“NTN”技术校准宽带取样示波器的不确定度分量,并深入研究了不确定度的评定方法。其主要内容分如下四个部分进行阐述:第一、从原理上介绍“NTN”技术校准宽带
rTMS能影响大脑特定皮质区的功能,提高或抑制大脑皮质的兴奋性,对一些精神疾病病灶的定位和治疗显示了非常独特的功效。rTMS产生不同形式的脉冲磁场刺激方式,引起的神经纤维放电
无线通信技术的发展极大地方便了人们的生活。宽带和多媒体无疑是无线通信技术的发展目标,而稳定高速的无线数据传输则是实现这一目标的基础。正交频分复用技术(OFDM)是近年来
随着J2EE技术的不断发展成熟,性能问题开始暴露和突出。对J2EE应用服务器进行性能的测试和评估具有重要价值。性能良好的J2EE应用服务器有助于保证企业计算的效率。 在众多
随着Internet与Intranet的迅猛发展,电子文本的信息量呈指数增长,人们越来越渴望拥有能帮助其查找、过滤以及管理如此海量信息的工具,文本自动分类就是这样的工具之一。利用文本