中文问题里的中心词识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:xiang43
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题分类是自动问答系统中对自然语言问题进行问题理解的关键步骤。寻找与问题类别密切相关的特征,对提高问答系统整体的处理性能和效率非常重要。中心词是问题中最能表达“问题问的是什么”的词或词组,包含丰富的语义信息,可以用于确定问题所属的类别。本文主要针对中文问题里的中心词进行研究,利用中文问题的特点以进一步提高中心词的抽取精度,达到改善问题分类效果的目的。本文的主要研究工作如下:(1)考虑到基于中心词词性、位置等表面特征的启发式规则的合理性以及其易受训练问题集影响的局限性,在观察和分析中心词在问题的句法结构中的词性、依存关系及其与疑问词的关联性的基础上,提出了条件随机场和错误驱动相结合的中心词识别方法。该方法主要利用错误驱动的思想,对条件随机场标注的结果进行反复校正学习,直到识别结果稳定收敛,最终筛选出能对条件随机场方法产生的负面结果具有抑制作用的有序规则集。对错误驱动算法进行改进,以减少有序规则的训练时间。实验表明了本文方法的有效性。(2)为了进一步提高中心词抽取的准确率,本文就中心词与类别间的语义关系进行了探讨,设计了一种基于类别和语义相似度的中心词识别方法。该方法将中心词与问题类别的语义相似度信息作为条件随机场的一个新训练特征,以提高中心词的识别准确性。实验验证了该方法的有效性。
其他文献
现行的K_匿名算法在设计属性值的泛化层次结构时,为图简便,往往忽略属性值的分布特征,而仅以机械的方式来确定其泛化域。当数据集内某些属性的值在一个较小区间里以高频度出现时
目标检测是模式识别和计算机视觉领域的重要研究课题之一,在军事侦察、智能交通、视频监控、人机交互等领域具有广阔的应用价值。在视频目标检测过程中,往往会出现外界环境干
弥散张量成像技术是核磁共振成像的模型之一,通过测量生物组织内水分子的弥散情况来进行成像。弥散张量成像技术对研究大脑的认知功能和神经结构的正常工作重要的意义。在大脑
人工视觉假体是目前解决视网膜病变所导致失明的最有效办法。国内外研究者在有限的植入电极所形成的低分辨率视觉下,不断努力和尝试,企图找到一些方法来帮助假体植入者,从最初的
随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的
随着移动互联网的兴起,移动平台Widget应用开发已经成为炙手可热的话题。但由于当前主流的移动开发平台之间互不兼容,造成移动Widget应用开发各种资源的浪费。本文以课题项目为
智能视频监控系统是利用计算机视觉技术对观测到的视频信息进行处理、分析和理解,从而实现对运动目标的监测。随着计算机和图像处理技术的不断发展,智能视频监控系统的研究和
现代软件规模越来越大、复杂程度越来越高,通常都是由许多开发者合作开发完成。由于软件开发工作的特殊性,如何对软件开发者进行准确的评价一直是个难题。目前对各开发者的评价
数据流是一种以高速连续形式到来的有序项集,它不同于传统的数据库中的数据。数据流具有连续、实时、无限等特点,并且是快速到来的数据。由于流数据明显区别于静态数据,现有的对
秘密共享改变了密钥管理的方式,能够分散密钥管理权限,提高了系统的安全性、可靠性以及实用性,对于保障信息的存储和传输安全具有重要的意义,成为网络安全和密码学领域中重要的