基于条件随机场与改进LSTM的短文本挖掘研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:adf2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,诸如微博、QQ、微信等社交平台,京东、淘宝等网购平台,可以说互联网的产物层出不穷。而在日常生活中,人们日渐频繁的上网行为,通过这些平台发布的评论形成了散布在互联网中数量级巨大的短文本数据。挖掘这些短文本数据中蕴含的丰富情感观点以及态度,对于政府部门进行舆情监控、卖家制定营销策略以及买家做出购买决定等具有重要且明确地指导意义。短文本数据往往呈现出篇幅较短,上下文特征稀疏以及语言表达口语化等特点,这为短文本数据挖掘带来了巨大的挑战。近年来,条件随机场与深度学习模型在图像处理、文本挖掘以及个性化推荐系统等领域的应用越来越广泛。条件随机场是一种基于条件概率分布的模型,克服了标注数据时常见的标记偏差问题,可以有效地提取评论文本中包含的评价对象等相关信息,而深度学习模型可以在弱监督下,主动学习评论文本中包含的情感倾向信息,这些优势决定了两种模型在短文本挖掘领域受到的关注度越来越高。由于评论文本体现出的情感倾向,与文本中的评价对象有着密切的联系,本文在条件随机场与深度学习模型的基础上,分别提出了针对于短文本评价对象识别与情感分析两个方面的短文本挖掘方法。本文的工作主要有:(1)针对短文本数据上下文特征稀疏、语言表达口语化导致的语法运用缺乏准确性,语法特征很难发挥作用的情况下,本文提出了基于词特征与语义特征的评价对象识别方法。该方法是在条件随机场模型中引入语义特征,捕获评论文本中类似于“施事者+形容词性情感词”、“动词性情感词+受事者”形式的结构,然后将该特征转化成特征函数,训练一个特定的条件随机场模型,最后将语义特征与其它不同类型特征进行组合,分别训练得到各自组合对应的条件随机场模型,根据模型的识别效果找到最佳的组合特征。通过在酒店评论语料与手机评论语料上进行实验,相较于引入语法特征,语义特征的识别效果在准确率(P)、召回率(R)、F值上均有提高,表明了引入语义特征的有效性,并且将词特征与语义特征进行组合取得的识别效果最佳。(2)由于短文本上下文特征稀疏,而且句子中的每个词语对情感极性的影响并不相同,本文针对这一问题提出了基于Attention-BiLSTM模型的短文本情感分析方法。该方法利用标准的LSTM模型对句子进行正反两个方向的建模编码,并且引入Attention机制,为句子中比较重要的词语赋予更高的权重。考虑到句子中不同评价对象可能对应不同的情感极性,本文又在隐层向量输入Attention层之前融入了评价对象信息,对模型作了进一步的改进。通过在SemEval 2014 Task4中的餐厅评论语料上进行实验,与LSTM、BiLSTM以及TD-LSTM模型相比,所提模型取得了更高的准确率。
其他文献
目的:探究“康复结局管理系统”对门诊康复治疗的腰椎间盘突出症患者的康复功能结局、治疗等待时间以及医患双方满意度的影响,为探索更为高效的信息化系统管理流程模式提供循证依据,为康复结局管理系统的推广提供数据支持。方法:根据本研究的纳入和排除标准,招募2018年3月—2018年12月在西部战区总医院接受门诊康复治疗的腰椎间盘突出症患者124例,随机分为试验组(康复结局管理系统组)、对照组(常规康复管理组
目的:提高癌症患者的生存质量。方法:通过心理干预给患者提供良好和全面的护理指导。结论:通过系统性心理干预能有效地减轻癌症患者的心理及生理反应,改善健康状况,提高免疫
学校体育教学都是围绕其指导思想进行多种体育教学活动,学校体育的指导思想是对其教学活动起方向指导作用,是教学目标的根本观点。本文从"四点"与"四线"的角度对"2+2"教学模
重庆市名老中医温木生老师行医近50年,具有丰富的临床经验和独特的学术思想,特别在穴位埋线疗法治疗胃痛上有较好疗效。本文总结温老师治疗胃痛的辨治思路和具体埋线方法,认
目的探讨磁共振T2 mapping成像对基质诱导的自体软骨细胞移植(MACI/MACT)术后的评估价值。方法 4例接受MACI治疗的膝关节软骨损伤患者(10处软骨损伤),分别在术后1、3、6个月
本文选取中国工业企业数据库中水产品加工行业2005-2013年的数据作为研究对象,通过测算企业的全要素生产率(TFP)和劳动生产率(LTFP)来验证中国水产品加工业是否存在"生产率悖
层级多孔材料具有高比表面积、高孔隙率、良好的渗透性和高度有序的孔道结构,广泛应用于生物、医学、环境修复、催化、以及能源储存与转化等领域。近年来,层级多孔材料的可控制
目的探讨吻合器痔上黏膜环切术(PPH)治疗痔疮临床观察效果。方法选取2014年1月至2016年1月南充市中心医院痔瘘科收治的160例痔疮患者为研究对象,将其随机分为治疗组(PPH组,吻