跨语言情感词典构建及文本情感分类方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:heigezi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网络为网民发表评论、交换观点带来了极大的便利,也为人们的决策提供了有力的支持。消费者很容易在餐馆点评网上对餐饮与服务进行评论,为新的客户选择餐馆提供依据;人们也很方便在电子产品评论网站上对产品的质量进行讨论,以帮助新的购买者买到符合要求的产品。以互联网络为平台对产品、对服务、对事件、对社会现象等进行评论甚至辩论已经成为许多人生活的一部分,也形成了网络内容的重要组成部分。分析网民的情感倾向和观点已经离不开大规模的网络文本。  随着网络技术的发展和互联网的快速普及,不同国家和地区的网民随之增长,多种语言的网络信息也迅速增多。近年来,互联网上语言的分布已经发生了很大的变化:英语所占的比例在快速下降,而中文,西班牙语和日语等所占的比例则迅速提升,这就需要面对多语言的信息处理问题。当前的情感分析研究主要针对单个语言,而在单语言情感分析中收集的资源在跨语言环境中无法直接使用;同样,单语言情感分析算法在跨语言环境中也无法直接运行。  本文围绕跨语言的情感资源构建与分析技术进行研究,重点研究情感词自动获取以及文本情感分类。  本论文的主要贡献包括以下几点:  (1)提出了从英语的情感词表获得其他语言的情感词表的方法。该方法通过为英文情感词语生成多种上下文,使机器翻译返回英文情感词在该上下文中更加准确的翻译,尽可能获得一个英文情感词语的多种不同翻译结果,最终达到涵盖目标语言上更多情感词语的目的。  (2)提出了一个跨语言文本情感分类的模型CLMM。CLMM模型有效地利用了双语平行语料中跨语言词对之间的对齐关系,通过半指导的机器学习方法,使大规模的无标注双语平行语料中的情感词特征获得较高的权重,从而达到提高分类效果的目的。  (3)提出了一个统计学习框架用于统一解决多语言环境下的情感词获取和文本分类问题。该框架首先利用各种跨语言资源获得多语言情感词汇之间的关系,而后构建多语言词图作为先验知识对机器学习模型施加影响,使得具有强相关性的词语和文本获得相近的情感极性,从而有效扩展情感词语以及区分评论文本。  (4)提出了从网络文本中提取出拉长词的方法。词语拉长是互联网文本中一种常见的将词语进行非规则变形的手段,用于强调词语,与情感表达有密切关联。拉长词语可以作为词典中已有的规则情感词的一个重要补充,加入情感词典中以增强词典在网络文本中的覆盖度。本文提出一个适用于不同语言的简单的拉长词识别算法。中英文上进行的实验表明,利用拉长现象收集的词语有情感强化的作用,将其收录入情感词表有助于提高情感词的覆盖度。
其他文献
在日新月异的互联网时代,随着网络视频数量的与日俱增,含有不良信息的网络视频也不断增多。为了保护未成年人和某些特殊人群,网络不良信息过滤刻不容缓。作为网络不良信息过
当今世界是一个信息爆炸的时代,人们越来越依赖网络来获取信息。如何从海量网络数据中快速、准确的获得有用的信息成为了亟需解决的问题,在这种背景下,搜索引擎的出现在一定程度
路由协议设计是无线传感器网络的一个重要研究领域,可靠性、低开销、易于维护是无线传感器网络路由协议的设计目标。本文充分调研无线传感器网络中的层次型路由协议、链式路
过去几十年,布料仿真技术一直是计算机图形学领域的研究热点,但是快速、理想的布料仿真的实现直到现在仍然是一个挑战。目前的布料仿真环境中,布料之间的碰撞检测与碰撞响应的准
随着互联网技术的高速发展,XML已成为互联网中数据交换和表示的事实标准,XML相关技术也在各种XML信息平台上扮演着重要的角色。国际互联网组织W3C提出的XQuery语言是当今最主流
GPS全球定位系统是利用卫星定位的,能够快速、实时地确定任一地面目标点的空间坐标.GPS与城市消防地理信息系统的结合可以用来更新消防GIS的空间数据库,可实时地将目标的空间
该文主要从以下几个方面讨论了对象WEB技术的基本原理及其在OMA2000系统中的具体应用和实现.(1)从理论上介绍了对象WEB技术的基本概念,讨论了该技术的JAVA-CORBA框架模式,以
近年来,由于互联网及数码设备的日益普及,视频的内容分析和处理受到各界的广泛关注。其中,基于视频的人体动作识别方法在近年来被广泛应用于各个领域,成为热门的研究方向。但
随着现代社会节奏的日益加快,计算机网络进入了飞速发展时期,逐渐成为了人们日常生活中信息交流的主要渠道。然而在网络上的信息传输仍然面临着很多安全问题,同时也对国家经济造
随着信息化技术的飞速发展,网络成为信息交流的重要平台,信息化教育技术受到越来越多高校的重视,建设一个健全的数字换校园成为高校的一个重要课题。传统的教学方式已不能满足高