论文部分内容阅读
随着互联网交互技术的发展,网络成为了新的交流平台,随之产生了海量的文本数据,针对这些数据的情感分析工作因此而迅速发展。经过十多年的发展,情感分析的研究工作变得更加细致且深入,评价对象抽取作为情感分析的关键任务之一而受到重点研究,其成果广泛应用于文本摘要、问答系统等相关研究。近几年,微博成为了最热门的评论信息载体,信息的规模迅速增加,其研究价值与紧迫性愈发明显。但是,由于微博句子相较于传统的新闻语句更为简短且缺乏规范,使得研究难度增大,因此,本文选取了微博文本作为研究对象,同时,选取评价对象抽取作为研究任务,继而探索微博评价对象抽取的新思路。具体的研究内容包括以下两部分:1)针对微博句子结构不规范导致词性标注和依存分析不够准确,继而使得微博评价对象抽取效果受到影响的问题,本文提出了通过引入最长名词短语(MNP)识别器,简化句子结构的方法来提高评价对象抽取效果。通过识别句中的最长名词短语,将其识别结果添加到用户分词词典中,使得微博语料分词后的句子结构更加简明。比较添加用户词典前后的微博评价对象抽取实验结果,发现评价对象抽取任务在添加了用户词典的实验中能取得更好的效果。因此,对微博句子进行最长名词短语识别能够促进评价对象抽取效果。2)条件随机场模型作为评价对象抽取任务中最好的机器学习模型,其抽取效果取决于特征的选取,而传统的词法特征仅考虑了词、词性,忽略了词的语义特征,但是语义特征在评价对象抽取中能起到关键的指示作用。因此本文提出了4个用于微博评价对象抽取的语义特征,分别是:评价绝缘词、评价触发词、评价消解词和评价指向动词。通过比较基于不同特征组合的微博评价对象抽取实验结果,发现部分语义特征能够极大地提高微博评价对象抽取效果。最后通过筛选、组合找出最优的评价对象抽取特征集,其F值相对基于基本特征的微博评价对象抽取提高了4.4个百分点。