基于统计学习的文本情感分析关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jhcjsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着论坛、博客和微博等网络媒体的快速发展,表达人们情感、态度和观点的主观性文本大量出现。文本情感分析,也称意见挖掘,就是对这些主观性信息进行有效地分析和挖掘,并进一步进行归纳和推理的技术。近几年,文本情感分析的研究已经涉及到产品评论、影视评论、舆情分析和信息预测等多个领域,应用初显成效,它已成为自然语言处理领域中新的研究热点之一。  文本情感分析以计算语言学、机器学习、数据挖掘和信息检索等理论为研究基础,具有重要的研究价值。从研究任务上,它可分为情感信息分类、情感信息抽取和情感信息应用三个方面;从研究粒度上,可分为词语级、短语级、句子级和篇章级的情感分析。其中基于不同粒度的情感信息分类和情感信息抽取属于情感分析的基础研究,而进一步地与信息检索、文本文摘和问答系统等应用系统相结合的情感分析则属于是情感分析的应用研究。  本文研究了情感信息分类、情感信息抽取和情感信息应用三个方面的关键问题,采用了分类、聚类和排序等统计学习方法,并利用多种语言学特征进行了深入研究,整体上使情感分析的效果获得了较大提升。本文研究的具体内容包括:  (1)提出了一种基于可信度分析的情感极性分类方法。情感信息分类主要包括主客观分类和情感极性分类,本文采用组合分类器方法对情感极性分类问题进行了研究。该组合分类器包括支持向量机、类中心和K近邻三种分类方法,采用基于可信度分析的分类器融合策略对情感极性进行判别,有效提高了情感极性分类的精度和效率。在酒店评论语料的极性分类实验中精确率、召回率指标均高于三种单分类器的分类结果,在第一届中文倾向性评测中,基于可信度分析的方法在相关任务的两项评价指标上获得最好结果。  (2)提出了基于浅层句法特征和启发式位置特征的评价对象抽取方法。在基于统计学习的评价对象抽取方法中,特征选择对模型的影响是非常重要的。本文在传统的词法特征的基础上增加了浅层句法特征和启发式位置特征,并将该特征集合应用在条件随机域模型和最大熵模型上,通过实验对两种特征的效果进行验证。实验证明,浅层句法特征可以有效地提高短语级评价对象的识别能力,启发式的评价词位置特征可以有效地提高短评论中评价对象的识别能力。通过实验结果对比发现,将浅层句法特征和启发式位置特征应用在条件随机域模型上,其评价对象抽取结果的 F值高于第一届文本倾向性评测相关任务的最好结果。  (3)提出了一种基于指定类中心聚类的评价对象抽取方法。由于有监督方法在实际应用中领域移植性较差,所以本文选择无监督方法进行评价对象抽取研究。采用基于聚类的方法进行评价对象抽取可以将相关的候选评价对象先进行归类,然后在各子类中逐一判别,这可以有效降低判别的复杂性。由于是针对评价对象进行聚类,所以引入相关领域
其他文献
随着云计算技术的发展,软件即服务(Softwareasaservice,SaaS)作为一种新型的软件交付模式被提出。SaaS模式丰富了应用软件的使用方式。人们无需再自己架设服务器、购买软件授
随着社会经济的飞速发展,交通拥挤情况日益恶化,严重影响人们的日常生活。交通警察指挥手势对于缓解因天气原因等引起的交通路口拥挤状况以及无人驾驶等领域具有特别的意义。
近些年,随着网络规模的急剧扩大以及云计算、大数据等新型业务的出现,传统网管系统逐渐地暴露出其在网络管理方面的缺陷。一方面,在传统网络中,为了应对来自网络数据流量爆炸
皮影戏是我国重要的传统艺术形式之一,但近年来受到较少关注,且发展缓慢。论文所依托的项目旨在弘扬传统艺术,保护并发扬中华文化遗产,提出一种在混合现实环境下交互式表演、生成
虹膜识别系统的准确率与图像质量密切相关,劣质的图像会严重影响整个系统的识别率,虹膜图像质量评估的目的,就是筛选出这类图像,保证进入识别系统的图像是符合识别要求的高质
半监督学习是机器学习的一个重要分支,在近些年互联网爆炸式发展过程中,出现了大量的数据分类需求,半监督学习可以利用有限的已标记数据和大量的未标记数据来解决数据分类的问题
随着校园网络规模的扩大、应用的不断扩展,网络架构日益复杂,迫切需要对校园网络实现实时的监控、及时的预警和综合的分析。网络监测预警系统是了解网络运行状况的有效手段,
在电商化的推动下,脚型三维数据的获取工作在鞋类定做领域占据重要地位。传统的计算机多视觉几何算法对三维脚型进行重建需要满足各种各样的条件,如要求脚上纹理明显(要求数
多媒体互动应用一直以来都深受人们的喜爱,它可以以一种趣味的形式让用户站在一个新颖的角度去体验日常生活中可能出现的事件,甚至是处于想象中的事物。我们开发的多媒体互动
本体映射旨在构建异构本体间的语义桥梁,以实现不同本体间的知识共享和信息交流。但是,随着本体应用的不断发展,本体规模也在不断壮大,当前出现了一类概念数量庞大、相互之间