基于OCC模型的中文微博情感识别

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:starboyak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络在现如今已经变得非常普遍和发达,文字仍是人们最常用最习惯的表达方式之一,微博作为活跃的用户平台,包含了人们丰富的关于事物、事件的观点和情感信息,对于情感检测领域的研究具有重要的应用价值。传统的情感计算多使用较为简单的情感类别,最常用的是把文本中出现的情感分为正、负、中三种类别。然而,这种简单的情感分类系统不足以概括文本中丰富的情感,本文以此为出发点,研究中文微博的多类情感识别。本文结合微博语料的特点,提出了一种Flat-OCC模型归纳出14个情感类别,相比简单的情感类别,本文提出的14类情感种类基本涵盖了微博中出现的情感,同时保证了每种情感都具有一定数量的实验语料。本文的工作主要包括:1.给定了每种情感定义的内涵和外延,并进一步明确了每种情感判定规则中的诸要素,使得每种情感更容易使用形式化的语言描述。2.提出了基于Flat-OCC模型的多类情感识别模型,具体来说,主要由三个模块组成:预处理模块,使用自然语言处理基础工具,对微博语料进行分词,和内容过滤;语料标注模块,实现对多种情感类别的语料进行标注,同时通过一种可视化方法检测标注效果,保证可以随时调整标注的策略,随着标注的增加得到了一定规模的多情感标注语料库;情感识别模块,该模块使用两种方法分别进行情感识别,首先使用启发式规则识别语料中包含的情感类型,同时迭代更新后续使用的关键词标签词组,然后使用关键词序列标签法再次识别情感类型,同时,关键词序列标签作为一种精细化情感判别规则,可作为对Flat-OCC模型的进一步补充,提高判定不同类别情感的准确性,进而提高了多类情感语料的标注质量。3.通过实验验证分析对比了启发式规则和关键词序列标签用于多类情感识别的效果及各自的优劣和适用环境。
其他文献
总结24例ICU患者外送CT检查期间出现意外的原因,并提出对策。主要原因是低年资护士经验不足及患者疾病因素。对护士加强专业技术培训,患者外出检查前做好充分准备,途中严密监
<正> (一)BOT案源多元化依英文直译,BOT就是民间兴建、营运后,移转归政府所有。具体来说,就是将原应由政府负责兴建的公共项目,如道路、桥梁、停车场等依一定的条件交给民间
构建多维互动的课堂教学模式是时代的需要,是教学改革的需要。构建多维互动的课堂教学模式,从宏观上把握教学活动整体及各要素之间内部的关系和功能,突出教学模式的有序性和可操
本文介绍了利用静态膨胀法真空装置和残余气体四极质谱计校准标准漏孔的方法,通过试验数据完全符合压力和漏率的理论曲线关系,并给出了该装置测量范围(10-5-10-9)pa·m3/s,装
针对目前基于LWE(LearnWithErrors)构造全同态加密方案普遍需要高斯函数抽样、公钥尺寸过大等问题,提出利用高效的LWR(LearningWithRounding)替换传统的LWE,构造基于LWR(LearningWit
22日下午,自治区党委书记吴英杰亲切接见了新当选的中国佛教协会西藏分会第十一届理事会班子成员。扎西坚才、班丹顿玉、达娃次仁、吉仲·丹白江村、等宗教界人士代表围绕淡化
报纸
目的了解金属制造业噪声作业工人上岗前听力损失情况,分析其影响因素。方法采用判断抽样的方法,以1 597名行上岗前职业健康检查的金属制造业拟从事噪声作业的工人为研究对象,
电解铜槽压与温度监测系统是以STC12C5A60S2单片机为核心的无线参数监测系统。系统硬件分为现场检测端和远程服务器端两部分。现场检测端分为槽电压、槽温度的检测部分和无线
美国著名经济学家、诺贝尔经济学奖获得者乔治·施蒂格勒说过,没有一个美国大公司不是通过某种程度、某种方式的兼并而成长起来的。企业并购重组在西方已有近百年的历史。自19
学位
美国总统特朗普日前参观了苹果公司位于奥斯汀的工厂,之后在社交媒体上发声,希望让苹果公司参与美国的5G建设。一时间引起国际上广泛议论,舆论普遍认为,对于技术和产业,政治意愿不
报纸