论文部分内容阅读
众所周知,比较是人类认识世界的一种重要手段和有说服力的表达方式,是世界各种语言的最重要的组成部分。随着Web2.0的深入发展,Internet技术更加注重与普通用户的交互,用户不仅是网站内容的读者,也是网站内容的作者。尤其最近几年,微博、播客、日志、维基、论坛等新型网络元素异军突起,使得网络信息更加个性化和多元化。这些信息中不乏是对各种新事物、新理论、新技术、新产品、新观点、新艺术的评论比较的文本信息。利用自然语言处理技术,高效地从这些信息中识别比较句和比较关系已成为近年来一个新颖的研究课题。论文在已有研究的基础上,对比较句与比较关系的自动识别做了系统深入的研究。主要包括以下几个方面的工作:①提出熵值平衡算法(EBA)用来对语料的类别偏斜问题进行平衡处理。该算法基于熵是度量一个系统有序程度的原理,通过计算每个词汇的熵值,选择满足阈值的词汇构造平衡关键字集合,再用这个集合过滤每个类别的语料文本数据,使得大类的样本规模与小类的样本规模接近于1:1。该算法在对语料库中比较句与非比较句比例为796:8010的平衡结果为701:1226,达到了平衡的预期目标。②提出基于信息熵的比较句识别方法。该方法提取类间分布不均匀而类内分布均匀的词汇作为比较句的统计特征;利用Apriori算法挖掘满足最小支持度minsup和最小置信度minconf的词性序列模式作为比较句的序列特征。然后使用信息增益(IG)对得到的特征进行特征选择。最后使用SVM和NB分类器对语料的特征向量进行分类。实验表明该方法的F1值为81%,能有效地识别比较句。③提出基于语义角色句法分析树的比较关系识别方法。该方法将句法分析树和语义角色标注相融合,构造一种新的语义角色分析树,并设计了子树间的匹配相似度计算函数,计算最大可能的抽取结果,旨在提取比较关系中比较主体,比较客体,比较内容和比较结果。实验结果显示,对只含有一个关系的比较关系抽取效果较好,对含有多个关系的比较关系抽取,效果有待进一步提高。④实现了产品评论挖掘中比较句与比较关系识别的应用。在论文提出的比较句与比较关系识别理论框架内,提出了产品评论挖掘的框架和流程,实现了在产品评论挖掘中的比较句与比较关系识别的应用,从而验证了论文所提出的识别方案的可行性和正确性。