论文部分内容阅读
问题分类是自动问答系统中对自然语言问题进行问题理解的关键步骤。寻找与问题类别密切相关的特征,对提高问答系统整体的处理性能和效率非常重要。中心词是问题中最能表达“问题问的是什么”的词或词组,包含丰富的语义信息,可以用于确定问题所属的类别。本文主要针对中文问题里的中心词进行研究,利用中文问题的特点以进一步提高中心词的抽取精度,达到改善问题分类效果的目的。本文的主要研究工作如下:(1)考虑到基于中心词词性、位置等表面特征的启发式规则的合理性以及其易受训练问题集影响的局限性,在观察和分析中心词在问题的句法结构中的词性、依存关系及其与疑问词的关联性的基础上,提出了条件随机场和错误驱动相结合的中心词识别方法。该方法主要利用错误驱动的思想,对条件随机场标注的结果进行反复校正学习,直到识别结果稳定收敛,最终筛选出能对条件随机场方法产生的负面结果具有抑制作用的有序规则集。对错误驱动算法进行改进,以减少有序规则的训练时间。实验表明了本文方法的有效性。(2)为了进一步提高中心词抽取的准确率,本文就中心词与类别间的语义关系进行了探讨,设计了一种基于类别和语义相似度的中心词识别方法。该方法将中心词与问题类别的语义相似度信息作为条件随机场的一个新训练特征,以提高中心词的识别准确性。实验验证了该方法的有效性。