文本情感特征提取方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:longyonghong520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类在舆情分析、电子商务、信息拦截、金融投资等领域有着广泛的应用。基于特征工程的传统文本情感分类方法费时费力,且泛化能力差,深度学习算法克服了人工设计选择特征的缺陷,可以自动学习并描述文本的特征,在文本情感分类领域表现突出。目前文本表示常采用word2vec工具,但该工具训练出的分布式词向量仅仅包含词的语义信息,而忽略词的情感信息和词性信息。与此同时,很多文本特征提取的研究仅仅围绕着词进行,而忽略了文本的结构信息。本研究基于上述不足,做了如下工作:1.对文本情感特征表示方法进行改进,本研究提出两个模型:W-P词的情感特征表示模型和融合情感特征的文本表达模型。W-P词的情感特征表示模型利用word2vec训练包含语义信息的分布式词向量,同时利用情感词典和结巴分词工具抽象化表示词的情感信息和词性信息,并将两者连接起来形成包含词的语义信息、情感信息及词性信息的词向量。融合情感特征的文本表达模型是基于W-P词的情感特征表示模型,通过引入Bi-LSTM网络学习词的上下文信息,训练出融合词的上下文信息、语义信息、情感信息及词性信息的词向量,该词向量可以很好的表达词的信息。通过文本情感分类实验,验证了上述两个模型的有效性。2.在改进1的基础上,对文本情感特征提取方法进行改进,本研究提出序列结构化的文本特征提取模型。该模型通过融合情感特征的文本表达模型学习词序列信息,利用CNN网络提取文本的结构信息,同时在中间加入注意力机制,达到有选择性的去冗余的目的,从而实现多层次提取文本信息,减少文本信息的丢失。实验结果表明,该模型实现了分类效果的提升。
其他文献
<正> 抄书。鲁迅从十五岁起就抄书,起初抄录小本《康熙字典》上的古文奇字,后来抄录《唐诗叩弹录》。鲁迅还抄录了中国第一部茶书——唐代陆羽写的《茶经》三卷和陆龟集的《
在研究国内高职机电专业课程体系发展过程、当前高职机电专业课程体系存在的主要问题及课程改革现状的基础上,提出根据机电产品的组成构建高职机电专业模块式课程体系的课程
随着互联网的高速发展,网络信息的规模越来越大,为了更高效的为用户提供信息服务,运用协同过滤算法的个性化推荐技术正广泛的应用于各类网络信息服务系统。然而协同过滤算法存在
"内隐学习"是认知心理学领域的最新研究成果,指个体在不知不觉中无意识地获得知识经验,是一种全新的学习方式革命。内隐学习有助于个体品德各要素知、情、意、行的辩证统一,应
"互联网+教育"环境下将互联网的开放、共享、平等、自由等特征与教育教学的本质规律相结合,促进高校教育教学的改革与创新是一个重要课题。文章中融合了互联网思维理念,提出
节约用水是应对水资源短缺和减少污水排放、改善水生态环境的最直接、最有效的方法,是实行最严格水资源管理制度的基本内容之一。近年来,党中央国务院提出了一系列关于节约用
目的评价切开复位内固定治疗肱骨近端骨折临床治疗结果及术后撞击并发症发生率。方法2008年1月至2009年12月期间55例有移位的肱骨近端骨折患者在我科接受锁定钢板治疗,平均随
高职院校人才培养的要求和教育对象的特点决定了思想政治理论课考核以促进学生就业能力提升为导向的必要性。目前思想政治理论课考核模式在一定程度上阻碍了学生就业能力的提
新世纪的曙光正在向我们走来,我国加入WTO的步伐也正日益临近。作为上海六大支柱产业之一的电气集团电站设备和大型成套机械,进入WTO,既充满了新发展的机遇,也面临着严峻的挑战。
通过对当代雕塑泛化现象有关问题及其现象背后的本质揭示,明确泛化现象是历史存在的一种“开敞”形式,其背后“遮蔽”的是时代本真。雕塑艺术不管采用什么形式、语言、媒介材料