论文部分内容阅读
近几年来,随着微博、社交网络、电子商务、生活信息服务等网络应用的出现,用户访问网络的行为从过去的单纯“接收”信息,变成了参与“创造”信息,即现在的用户更乐于上传自己对于人物、商家、产品的评论。每天互联网都产生着大量的评论信息,互联网中的用户评论数量迅速膨胀。基于此,如果用户想从这些海量的用户评论中挖掘出以前用户对这些人物、商家、产品的评价就更为困难,想要通过人工方式去分析这些评论情感倾向已经成为不可能,这时海量的评论却成为了用户上网的负担。由于大多数的评论信息都是用自然语言来描述的,因此可以使用自然语言处理技术帮助用户去总结和分析这些评论信息,得出评论的情感倾向。对用户评论进行情感分析已经成为现在的一个研究热点,也将成为未来互联网的重要组成部分。本文首先介绍了网络爬虫的工作原理,接着分析了现有爬虫的爬取策略,然后对本系统中将使用的相关技术(如网络爬虫Heritrix,网页解析引擎HtmlParser,分词系统ICTCLAS4J,脚本解析引擎Rhino)的主要功能和工作原理进行了详细阐述。最后介绍了情感分类的定义以及情感分类的步骤,另外还对几个具有代表性的中文情感分类系统进行了介绍。本文提出了文本情感分类系统的原型,给出了其关键技术的解决方案。首先阐述了Heritrix的整体架构,根据项目实际需求,定制了针对特定网站的抽取器;使用哈希算法代替了原有的URL分配策略,达到了多线程爬取的目的。接着分析了HtmlParser解析网页正文、Rhino解析Javascript的过程,提出了适合本系统的网页解析方案。最后本文对情感分类算法进行深入的研究,在前人的基础上,总结出了使用情感词构造短语模型,来表达文本的情感特征,然后利用这些短语模型实现文本的情感分类。本文情感分类算法中包括了情感词获取、短语模型的构造、短语模型情感倾向值计算以及文本情感倾向值判断。最后,详细阐述了关键技术的实现过程,并给出了相关代码,完成了一个用户评论采集-评论信息处理-情感分类为一体的评论情感分类平台。本系统分为网页采集、网页解析、情感分类三个主要模块。网页采集模块为后面两个模块提供了原始数据。网页解析模块从采集到的网页中抽取系统感兴趣的内容,作为情感分类模块的原始文本。情感分类模块通过对原始文本进行分词、标注、有效短语抽取以及计算文本情感倾向值等步骤实现。本文通过对大众点评网的评论数据进行了系统测试实验,实验结果表明该系统具有较高的查准率和查全率。