基于流形正则化和情感要素的半监督中文文本情感分类

被引量 : 4次 | 上传用户:xinyu0218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,网络逐渐成为人们交流观点和表达情感的平台。如今,互联网上存在大量带有主观色彩的文本,我们称之为主观文本。分析其中的主观性信息对于政府了解民众意向、商家掌握客户意见、用户跟踪热点话题等等都极具意义。在此背景之下,本文着重关注中文文本的情感分类问题,围绕数学模型和情感相关知识展开探索。近十年来,学者们对于中文文本情感分类问题的研究热情不断高涨,出现了一系列成果,也面临诸多问题:首先,相比切分、词性标注,文本情感信息的标注更加困难,其费时、一致性差的问题使得大规模情感标注语料的获取难以实行。标注语料的缺乏成为制约文本情感分析的一个重要因素。其次,表层文本特征己无法对情感类别进行有效区分,高质量情感分类需要利用更为丰富和深入的语言信息及情感相关知识。最后,情感具有高度的主观性、个体差异性,加深了文本的情感歧义,为计算机的自动分析带来巨大挑战。针对第一个问题,本文提出采用结合未标样本信息的半监督学习方法来进行文本情感分类;针对第二个问题,本文提出构建情感分析所需的语言知识并运用于文本情感分类。基于此,本文展开一系列研究,取得了如下成果:1.构建了基于流形正则化的半监督概率判别模型的一般框架,并在该框架下实现了基于流形正则化的半监督多元Logistic回归算法(MRMLR算法)。从理论和实验两个角度,分析了MRMLR算法学习性能上的特点和对模型超参数的鲁棒性表现,证实了该算法的有效性和稳定性。2.提出了基于流形正则化的直推算法(MRTRU算法)。该算法通过采用期望最大化算法的变体解决上述一般框架的参数估计问题得出,避免了对数据分布的具体形式做任何假设,并打破了只能在特征向量空间中表示样本的限制。其有效性和稳定性在真实数据集上得到了验证。3.提出了一个与文本情感分类相关的情感要素集合(包括诱因、体验、行为后果、外在表现四种类型),构建了一个标注有词条要素类型及类型下情感分布的知识库,并采用规则的方法对情感知识的应用做出尝试。实验证明了本文情感知识体系的合理性,以及情感知识库的有效性。4.提出了结合情感知识的半监督文本情感分类方法。将规则方法得到的结果作为先验融入到统计模型当中,以弥补知识不足和未登录词带来的影响。实验表明,结合后,情感知识对于情感类别的高效区分性和统计方法的优势得以同时保持,两者互相促进,使文本情感分类的性能得到大幅提升。
其他文献
本文主要对城中村改造过程中出现的拆迁补偿问题进行了详细的分析,从而提出解决问题的对策。
从传播学和文化的角度出发进行民族文化的重构研究,本文主要从以下几个方面进行,试着把大众传媒对于民族文化的重构研究做简单地梳理。首先,本文对有关传播学与文化研究的关
舰载无人机一种低风险、高效率的战场感知平台,本文阐述舰载无人机的组成以及在海上战斗中的具体应用,对舰载无人机系统的发展提出相关建议。
网络被称是第四媒体,网络等新媒体的兴起,已在不知不觉中改变着我们这个时代,然而新媒体的迅猛发展,更是严重冲击了传统媒体,尤其是纸媒。抢新闻已不再是传统媒体的竞争优势,
目的:探讨妊娠相关血浆蛋白-A(PAPP-A)是否直接参与了卵泡发育中的FSH作用系统.方法:将来自体外受精-胚胎移植的卵巢黄素化颗粒细胞纯化后,在不同剂量FSH作用下进行体外培养.
家庭教育事业不同于个体的家庭教育,是指社会各界,尤其是政府相关部门对家庭教育的研究、指导、培训、服务、管理等社会性事务。目前广东珠三角地区家庭教育事业发展中存在着
随着国企改革的深入,职工档案管理的矛盾和问题逐渐凸现出来,致使企业职工的养老、医疗等诸多方面的切身利益无法保证,影响到社会的稳定及和和谐。本文分析了当前职工档案管
位于湖南省西南部的邵阳地区城步苗族自治县,是湖南省第二大苗族聚居区,这里的苗族人民在长期劳动生活中积累演化并口耳相传下来的音乐文化遗产中,“山歌”这一形式具有其独特的
<正>一、教师反思的内涵和作用美国教育心理学家Posner于1989年提出了教师成长的方案:经验+反思=成长,这一教师成长方案已日益为人们所熟知。
在技术不断更新的知识经济时代,中小民营高新技术企业必须利用研发人员的创造力持续创新,才能适应不断变化的市场环境。研发人员作为技术创新的主体,将成为企业核心能力的基