基于词矢量的短文本内容分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:JXCHZTP999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体和移动互联网的迅速发展,互联网中每天都在涌现大量的文本数据,如微博、短信息、产品评论、网页搜索片段以及新闻标题等。这些文本已经成为人们日常生活中重要的信息来源。它们通常以短文本的形式出现,特点是自身包含字数较少、表达形式丰富、数据规模较大。这些数据中蕴含着丰富的内容,包含人们的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域。短文本内容分析的研究目的是要快速、准确地从大规模数据中挖掘出主题信息,判别出短文本中人们所要表达的主观情感信息,在话题跟踪与发现、舆情预警等方面有着广泛的应用前景。  传统的文本内容分析方法通常采用向量空间模型表示文本,这种表示方法认为词语之间是无序的、互相独立的,不能有效地描述词语之间的语义关系。特别是处理短文本数据时,容易出现特征稀疏问题。近年来,随着深度学习在自然语言处理中广泛地应用,许多研究者们开始关注使用神经网络模型学习词语的分布式表示。在这种分布式表示方法中,词语之间的语义关系可以通过向量之间的相似度来表征,该表示方式为短文本内容分析的研究提供了新的思路。因此,本文将以词矢量作为特征输入,应用于短文本内容分析中。本文的主要工作如下:  1.提出一种利用卷积神经网络提取语句特征的短文本分类方法。在现有的特征集合中,大部分是基于字、词、Ngram等细颗粒度特征进行提取,缺乏语句层次方面的一个全局特征表示。神经网络模型能够通过多层非线性变换,对原始输入特征自动学习层次化的抽象表示。因此,本文利用卷积神经网络模型,通过卷积层和池化层提取语句层的全局特征表示,与现有的细颗粒度特征一起用于短文本的特征表示。相比仅使用细颗粒特征的方法,本文提出的方法在短文本分类中有着显著的性能提升。  2.提出一种基于概率语义分布的短文本分类方法。在词语的分布表示空间中,语义相似的词语在该空间中也是相近的。因此,本文利用词矢量的这一分布特性,提出了概率语义分布模型,利用不同的分布模型去描述各个领域内的词矢量分布情况,本文假设一条短文本产生于某一个概率语义分布模型。对于新的测试数据,计算来源于各个模型的概率,根据贝叶斯原理选择类别标签作为预测结果。同时,为了降低特征稀疏性,利用快速聚类算法对词矢量进行相似聚类,在词矢量空间中寻找词语的相似词,对短文本进行文本扩展。实验结果表明,本文提出的方法在短文本分类中明显优于传统的学习方法,并且取得了与基于神经网络模型方法相当的实验性能。  3.提出一种情感词矢量的训练方法。现有的词矢量大多是描述词语之间的语义关系,缺乏对词语情感极性信息的描述。例如单词“good”和“bad”在语义词矢量空间中是相近的,但是它们的情感极性却是相反的,直接使用语义词矢量不能区分词语的情感极性。本文在现有词矢量训练模型的基础上,通过修改目标函数进行有监督训练得到情感词矢量。为验证所得到的词矢量是否能够描述情感极性,本文在词语和短文本两个层次进行了实验。实验结果表明:一方面,所得到的情感词矢量能够区分词语的情感极性,并且情感极性相似的词语在词矢量空间分布中也是相近的;另一方面,将情感词矢量作为模型特征输入应用于短文本情感分析中,避免了传统情感分析方法中人工设计特征集合的过程,并且性能优于直接使用语义词矢量作为特征输入的方法。
其他文献
摘要:在语文教学过程中,把帮助学生树立自信心作为主攻目标,把增强其对语文学习的兴趣作为突破口,力求让他们增强学习的自信心,使得他们既能培养健康的学习心理素质,又能尝试成功的喜悦。只要我们能够尽可能多地给学习困难生创设“成功”的机遇,给予他们热切的期望、具体的帮助,就一定会让他们重新树立起学习的自信心的。  关键词:小学语文;学困生;对策研究  一、小学语文学困生成因分析  1.先天因素  所谓的先
网格技术是将分散于不同地理位置中的同构或者异构的计算资源进行整合,实现分散资源的统一化管理,进而实现超级计算机的功能。包任务作为一种特殊的并行作业,已成为网格技术
多媒体技术是在计算机上表示多种媒体(如文本、图形、图像、音频、视频等),以音频和视频应用为主的,能够同时处理和显示多种媒体信息类型的技术。其中,数字视频处理技术是以
本文以龙牙百合的试管鳞茎为材料,以同时期25℃常温贮藏为对照,用分光光度法研究了5℃低温贮藏过程中水溶性蛋白、总蛋白、DNA、RNA含量的动态变化;用SDS-聚丙烯酰胺凝胶电泳和I
近年来,随着转基因棉花的推广和种植面积的不断扩大,显现出重要的社会和经济效益,所以发展迅猛。与此同时,它可能造成的负面影响已引起世界各国科学家的关注。因此,在转基因
目的:研究丹参川芎嗪注射液治疗胫腓骨骨折所致肢体肿胀的临床效果。方法选取86例胫腓骨骨折患者,随机分成两组,对照组患者43例,采用甘露醇治疗,观察组43例,采用丹参川芎嗪注射液治
随着计算机技术以及通信技术的迅猛发展,互联网络用户开始迅猛增加,网络上出现了越来越多的存储信息以及大量丰富的具有很高使用价值的内容,使得整个互联网的内容存储的中心
作为一门新兴的交叉学科,无线传感器网络(WSN)越来越受各国政府和研究人员的关注。无线传感器网络是一项集成了传感器、微机电系统和网络三大技术的全新的信息获取和处理技术
拉索是拉索桥的主要承载部件,作为—种比较高效的受拉构件,其具有悠久的工程应用历史。伴随材料科学技术和计算机分昕技术的提高,拉索也在桥梁工程中得到广泛应用。拉索桥中
Mosaic模式是一种新型的SAR工作体制,通过将滑动聚束/聚束模式与ScanSAR相结合,实现高分宽测成像。在数据采集期间,雷达天线不仅像ScanSAR一样在距离向上扫描,而且像聚束/滑动聚