论文部分内容阅读
互联网络为网民发表评论、交换观点带来了极大的便利,也为人们的决策提供了有力的支持。消费者很容易在餐馆点评网上对餐饮与服务进行评论,为新的客户选择餐馆提供依据;人们也很方便在电子产品评论网站上对产品的质量进行讨论,以帮助新的购买者买到符合要求的产品。以互联网络为平台对产品、对服务、对事件、对社会现象等进行评论甚至辩论已经成为许多人生活的一部分,也形成了网络内容的重要组成部分。分析网民的情感倾向和观点已经离不开大规模的网络文本。 随着网络技术的发展和互联网的快速普及,不同国家和地区的网民随之增长,多种语言的网络信息也迅速增多。近年来,互联网上语言的分布已经发生了很大的变化:英语所占的比例在快速下降,而中文,西班牙语和日语等所占的比例则迅速提升,这就需要面对多语言的信息处理问题。当前的情感分析研究主要针对单个语言,而在单语言情感分析中收集的资源在跨语言环境中无法直接使用;同样,单语言情感分析算法在跨语言环境中也无法直接运行。 本文围绕跨语言的情感资源构建与分析技术进行研究,重点研究情感词自动获取以及文本情感分类。 本论文的主要贡献包括以下几点: (1)提出了从英语的情感词表获得其他语言的情感词表的方法。该方法通过为英文情感词语生成多种上下文,使机器翻译返回英文情感词在该上下文中更加准确的翻译,尽可能获得一个英文情感词语的多种不同翻译结果,最终达到涵盖目标语言上更多情感词语的目的。 (2)提出了一个跨语言文本情感分类的模型CLMM。CLMM模型有效地利用了双语平行语料中跨语言词对之间的对齐关系,通过半指导的机器学习方法,使大规模的无标注双语平行语料中的情感词特征获得较高的权重,从而达到提高分类效果的目的。 (3)提出了一个统计学习框架用于统一解决多语言环境下的情感词获取和文本分类问题。该框架首先利用各种跨语言资源获得多语言情感词汇之间的关系,而后构建多语言词图作为先验知识对机器学习模型施加影响,使得具有强相关性的词语和文本获得相近的情感极性,从而有效扩展情感词语以及区分评论文本。 (4)提出了从网络文本中提取出拉长词的方法。词语拉长是互联网文本中一种常见的将词语进行非规则变形的手段,用于强调词语,与情感表达有密切关联。拉长词语可以作为词典中已有的规则情感词的一个重要补充,加入情感词典中以增强词典在网络文本中的覆盖度。本文提出一个适用于不同语言的简单的拉长词识别算法。中英文上进行的实验表明,利用拉长现象收集的词语有情感强化的作用,将其收录入情感词表有助于提高情感词的覆盖度。