比较句与比较关系识别研究及其应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cao240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,比较是人类认识世界的一种重要手段和有说服力的表达方式,是世界各种语言的最重要的组成部分。随着Web2.0的深入发展,Internet技术更加注重与普通用户的交互,用户不仅是网站内容的读者,也是网站内容的作者。尤其最近几年,微博、播客、日志、维基、论坛等新型网络元素异军突起,使得网络信息更加个性化和多元化。这些信息中不乏是对各种新事物、新理论、新技术、新产品、新观点、新艺术的评论比较的文本信息。利用自然语言处理技术,高效地从这些信息中识别比较句和比较关系已成为近年来一个新颖的研究课题。论文在已有研究的基础上,对比较句与比较关系的自动识别做了系统深入的研究。主要包括以下几个方面的工作:①提出熵值平衡算法(EBA)用来对语料的类别偏斜问题进行平衡处理。该算法基于熵是度量一个系统有序程度的原理,通过计算每个词汇的熵值,选择满足阈值的词汇构造平衡关键字集合,再用这个集合过滤每个类别的语料文本数据,使得大类的样本规模与小类的样本规模接近于1:1。该算法在对语料库中比较句与非比较句比例为796:8010的平衡结果为701:1226,达到了平衡的预期目标。②提出基于信息熵的比较句识别方法。该方法提取类间分布不均匀而类内分布均匀的词汇作为比较句的统计特征;利用Apriori算法挖掘满足最小支持度minsup和最小置信度minconf的词性序列模式作为比较句的序列特征。然后使用信息增益(IG)对得到的特征进行特征选择。最后使用SVM和NB分类器对语料的特征向量进行分类。实验表明该方法的F1值为81%,能有效地识别比较句。③提出基于语义角色句法分析树的比较关系识别方法。该方法将句法分析树和语义角色标注相融合,构造一种新的语义角色分析树,并设计了子树间的匹配相似度计算函数,计算最大可能的抽取结果,旨在提取比较关系中比较主体,比较客体,比较内容和比较结果。实验结果显示,对只含有一个关系的比较关系抽取效果较好,对含有多个关系的比较关系抽取,效果有待进一步提高。④实现了产品评论挖掘中比较句与比较关系识别的应用。在论文提出的比较句与比较关系识别理论框架内,提出了产品评论挖掘的框架和流程,实现了在产品评论挖掘中的比较句与比较关系识别的应用,从而验证了论文所提出的识别方案的可行性和正确性。
其他文献
随着计算技术和图像处理技术的发展,嵌入式系统技术和网络视频应用技术结合的嵌入式网络视频应用逐步普及。但是由于嵌入式系统对处理资源的限制,以及网络视频应用对处理资源
文物数字化展示是文物保护和可持续发展的关键环节,而文物模型具有的大数据量的特点决定了其三维实时展示的困难。如何在有限硬件条件下实现文物模型良好的展示效果,是本文的
双目立体视觉技术是当前计算机视觉领域的专家和学者的一个热门的研究课题。它的原理是模拟人类的双目视觉系统从二维图像信息中感知三维图像信息。双目立体视觉系统通常采用
随着物联网概念的兴起,作为基础设施的无线传感器网络越来越受到研究者的广泛关注。得益于集成芯片、传感器、通信等多项技术的飞速发展,无线传感器节点能够降低成本、多功能
高能效可靠数据传输是无线传感器网络研究中一个基础且关键性的问题,它决定了节点感知的数据如何经多跳路由传输到基站,对整个网络的通信性能和能量使用效率都有着至关重要的
心率是人体最重要、最基本的生理参数之一,在健康指标上有着重要的意义。传统的测量方式要求测量者与医生或者仪器有一定的物理接触,一定程度上造成了测量的不便。本文探讨一种
行人检测是基于图像/视频数据进行目标检测的一个重要分支,它在视频监控、智能交通、高级人机接口等多个领域具有广泛的应用前景。行人检测技术实现的一个主流思路就是从机器
张代远教授在其专著《神经网络新理论与方法》中提出的权函数神经网络模型简化了网络结构,克服了传统神经网络算法局部极小、收敛速度慢、难以求得全局最优点等缺陷。B-样条权
浮选过程中,泡沫具有明显的色彩特征,它与浮选生产工况密切相关,并能反映气泡所携带的矿物类型。现场操作工人往往通过观察浮选泡沫表面颜色进行生产调节,但肉眼难以观测到泡
随着网络规模的不断扩大,网络流量的不断增大,传统的入侵检测系统在高速网络环境下存在较大的性能瓶颈和缺陷。主要表现在两个方面:一是当前应用层的入侵检测系统虽然比较稳定