文本情感分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:en2113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络应用的快速发展,人们积极参与到了电子购物和网络社交活动中,通过论坛、博客、微博等分享自己的心情、观点和体验等。因此,互联网上产生了海量的主观性文本内容,这些内容中蕴含着用户对于商品、公众事件、组织机构、国家政策等的观点和态度信息。挖掘这些情感信息对于用户、商业组织以及政府职能部门等都具有极其重要的应用价值,可以用于情感检索、个性化推荐、舆情监测等。因此,文本情感分析研究不但具有重要的社会意义和价值,而且日渐成为自然语言理解、数据挖掘、信息检索和社交网络等领域研究的热点问题。  文本情感分析研究主要可以分为两个子任务:文本情感信息抽取和文本情感倾向性分类。文本情感信息抽取是情感分析的基础性环节,其目的是从文本中抽取出具有情感色彩的文本信息。文本情感倾向性分类的任务是将文本内容按照其所隐含的情感色彩划分为正向情感或负向情感。本文针对文本情感信息抽取和文本情感倾向性分类中的关键技术展开研究,研究内容主要包括:  1.情感词典构建。现有的情感词典构建算法大多需要种子情感词进行扩展,然而所选择出的种子词的优劣对最终的情感词典构建结果影响非常大。为解决这一问题,我们提出一种利用情感词与修饰词和评价特征之间存在的依存关系,设计不同扩展规则抽取情感词的方法。该算法只需要修饰词,不需要种子情感词并且修饰词具有数量少、容易搜集且具有领域独立性等特点,因此算法具有可移植性。实验结果表明所提出的利用修饰词扩展情感词典的方法明显优于现有的基于种子词扩展情感词典的算法。  2.情感词极性标注。情感词的情感极性具有领域依赖性,同一情感词在不同领域中可能表现出相反的情感极性。现有的不需种子词的情感词极性标注算法主要利用已标注文档与候选情感词的共现关系进行建模,而忽略了词项间所具有的情感语义关系。我们将情感词极性标注问题转化为矩阵分解问题,并提出一种基于情感正则项的识别标注模型,充分利用了文档、词项间的情感匹配性和情感一致性约束。在三个真实数据集上的实验结果表明,相对于目前已有的方法,我们的情感词极性标注模型可以取得更高的标注精度。  3.情感特征选择。文档级情感倾向性分类可看作一种特殊的二类文本分类问题,其分类精度与所选择的特征密切相关。与传统特征选择算法不同,本文从候选特征的情感贡献角度出发提出一种基于隐式情感空间的情感特征选择算法。该算法将候选特征和文档映射到二维情感(正向和负向)空间中,利用已标注文档和词项间的情感关系构建目标函数,求解候选特征在隐式情感空间上的情感分布。实验结果表明所提出的特征选择算法可以选择出较少的特征并且取得较好的分类结果。  4.跨领域情感倾向性分类。文档级情感倾向性分类大多采用有监督的学习过程,然而很多领域并不具备大量的已标注样本。因标注数据耗时耗力,所以跨领域的情感倾向性分类的相关研究备受研究人员青睐。与现有算法不同,本文从概率矩阵分解的角度提出一种跨领域情感分类模型,以共有的情感词作为纽带将所有的文档和词项映射到二维空间,然后利用情感先验知识将二维空间约束为二维情感空间。目标领域样本的情感标签作为变量参与目标函数的求解。在亚马逊数据集上的实验结果表明,所提出的跨领域情感分类模型所取得的分类精度明显优于已有算法。  5.用户级情感分析。目前的主流情感分类对象集中在文档级,然而同一用户可能会针对某一话题发表多个文档,如Twitter用户可以针对某一话题发表多个tweets,用户所表达的情感最终是怎样的呢?显然,文档级的情感分析已不能满足这种场合的需求。本文将情感分析的粒度扩展至用户级,并提出一种用户向量(User Vector)表示框架。这种框架具有良好的扩展性,可通过引入情感约束来增强用户情感向量的学习。实验结果表明User Vector模型能够使得同一宋词流派的词人聚成一簇,并且能够有效提高用户级情感分类精度。
其他文献
公共上机实验环境是一种广泛存在的计算机(群)应用方式。以校园机房的计算机实验教学活动为例,长期以来,参与教学实验的教师,学生用户没有动态,自主的构建个性化上机实验环境
物联网技术通过各种传感器对环境信息进行全面采集,按照约定的协议,通过现有的网络技术,把信息传送到应用平台进行处理,实现对物体的智能化控制。物联网技术正逐步得到发展,
RPKI(Resource Public Key Infrastructure,互联网码号资源公钥证书体系)是一种用于保障互联网基础码号资源(包含IP地址、AS号)安全使用的公钥基础设施。通过对X.509公钥证书扩
形式验证的方法主要有模型检测和演绎推理两种。模型检测的优点是验证过程是自动的,缺点是具有状态爆炸问题,不利于处理大型系统。演绎推理具有可以处理无穷状态系统的优点,但验
在作为LTE-Advanced系统的一项关键技术的协作多点传输(CoMP)技术中,在地理位置上分离的多个传输点,协同参与为一个终端的数据传输或者联合接收一个终端发送的数据,从而降低
股市波动风险的复杂性和不可预测性很大程度上影响着投资者决策,容易造成选股不当、投资规模和比例配置失误,以至难以实现收益最大化。本论文旨在揭示中国股市波动性的特性、进
近年来,随着移动智能终端的普及和移动互联网的飞速发展,移动智能终端逐渐取代传统计算机平台成为人们的主要计算平台,渗透到人们生活的方方面面。在给人们生活带来巨大方便的同
物联网的概念和应用在近几年逐渐被人们所了解,作为一种有极大发展潜力的技术,整个物联网产业链将会产生数以万亿级别的利润,所以物联网产业必然成为了全世界各个国家所重点
信息物理融合系统是近年来研究的一个热点领域,它集成了计算成分和物理成分,这类系统具备计算、通信及控制行为能力,包含离散和连续混合特性,往往应用于安全攸关的领域,如智
微生物资源是世界上分布最广、种类最多的生物资源。目前全球有超过16万的微生物物种存在。它们与人类的生产生活密不可分,涉及到农业、林业、工业、医药等各个领域。人类对微