领域自适应的中文情感分析词典构建研究

被引量 : 0次 | 上传用户:xp108999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅猛发展,用户在互联网上的行为发生了巨大的改变,越来越多的人们在互联网上表达个人观点,由被动的接受信息转为参与创建互联网资源,由此互联网信息量的爆炸式剧增使得单纯依靠人工的方法收集和整理信息已远不能满足越来越多的需求。因此,如何从海量的互联网信息中自动挖掘和整理主观性信息尤为重要,情感分析任务应运而生。情感分析是自然语言处理领域的一个重要话题,旨在对无结构的主观性文本进行分析、处理和归纳,最终形成方便机器理解和用户使用的结构化数据。情感分析是一个多学科综合的研究领域,内容涉及多层语言分析技术,按照处理文本粒度的不同可以将情感分析分为篇章级、句子级和词语级。情感词是情感分析的重要组成部分,很多上层情感分析任务如篇章级、句子级和评价搭配识别等都需要情感词典的支持,构建高质量的情感词典对情感分析尤为重要。而由于不同领域的情感表达方式不同,甚至有可能同一个词语在不同领域表达相反的极性,很难构建一个复杂的情感词典满足所有要求。本文提出了一种基于半指导方法的情感词典构建框架,算法流程共包括3个步骤,分别是情感词种子的获取、构建语义图和计算情感分值。其中情感词种子通过大规模用户评论数据进行自动获取;语义图的构建依赖于外部的语义资源,如同义词词林;我们分别尝试了Topic-Sensitive PageRank和标签传播算法计算情感分值。此外,本文还尝试结合有指导学习方法和随机最小割算法进行情感词语极性识别,实验结果表明,随机最小割算法可以有效提高情感极性识别效果。在此基础上,本文在提出了基于统计分析的领域情感分析词典构建方法,主要流程包含领域评价对象抽取、领域情感词语抽取和情感词语的极性识别。其中领域评价对象抽取模块我们使用了统计分析的方法;情感词语抽取模块以情感路径的方式表达情感词语和领域评价对象之间的关系,并使用句法路径构建情感路径模版;最后对情感词语进行极性识别。最后,本文设计并实现了领域自适应的情感分析词典抽取平台SWMine,主要包括领域评价对象抽取、领域情感词语抽取和情感词语极性识别,并设计了数据的表示形式以及可视化样例,可以为商家和用户提供更好地服务。
其他文献
<正>电视节目低俗化现象是一个全球性的难题。这一问题在香港地区也曾非常严重。在抵制低俗化的长期实践中,他们形成了一套比较规范、成熟的体制,积累了丰富的经验。考虑到香
行政法基本原则是是贯穿行政法的灵魂,任何法都不可能没有灵魂,而纵观我国行政法现状,基本原则仍是一种思想原则而非法律原则,本文通过对行政法基本原则的重要性及其难以成为
针对中空玻璃用弹性密封胶的性能、应用知识以及中空玻璃制作、安装使用的相关应用问题进行了解释和分析。
<正>闻一多、徐志摩、戴望舒是二三十年代诗坛三杰。闻一多、徐志摩是"新月派",戴望舒为"现代派"。虽然他们生命终结的原因与方式不同:闻一多死于爱国、徐志摩死于情爱、戴望
2009年4月,国务院决定开展人民币跨境贸易结算试点工作,同年7月1日,人民币跨境贸易结算试点正式启动,之后,我国政府相关部门连续出台一系列规章制度,基本上建立了人民币跨境贸易结
城市是生产力发展的产物,城市的发展是对人类社会产生、发展影响最大的地域演变过程之一。随着改革开放的不断深入,我国的城镇化发展有了巨大进步,城镇化已经成为推动我国经
现代企业环境下,员工的斗志可以被竞争所激发,迎接挑战,这就是激励机制的表现,反之竞争精神也有利于推动激励制度的进程。有效的激励机制能产生竞争的压力,这种竞争的压力久
“信息技术(information technology)与课程整合(integration)”就是把信息技术与学科课程有机地结合起来,把信息技术与学科课程的教与学融为一体,利用计算机、网络、多媒体
近年来,关于城市房屋拆迁中出现的纠纷问题逐渐成为社会关注的焦点,追根溯源,问题产生的主要原因就是拆迁补偿价格制定的不合理。本文在对中国城市房屋拆迁补偿价格现状分析的基
本文分析了新时代背景下高校宣传思想工作面临的主要挑战,阐述了新媒体环境复杂化、大学生群体多元化及社会价值多元化对高校宣传思想工作带来的影响,并提出了新时代创新高校