论文部分内容阅读
随着互联网上Web信息爆炸性地增长,如何从海量数据中快速准确的找到所需信息已成为亟待解决的问题。传统以关键词模式的搜索服务在一定程度上已不能满足人们对信息获取的要求。自动问答系统利用自然语言的形式进行提问和回答,且返回的结果更加精确,也更符合用户需求,逐渐成为热点的研究方向。目前自动问答领域已经积累了大量的研究成果,但还没能像搜索引擎形成商业化应用,主要由于缺少丰富的数据集支持,存在知识库规模不足、知识获取困难的瓶颈问题。交互式问答论坛是一种流行的网络服务,上面积累了大规模高质量的问答主题数据,为自动问答提供了天然的理想的数据集。
本文研究基于问答论坛数据集构建自动问答系统的过程。在分析总结现有研究成果的基础上,发现自然语言句法和语义信息是影响自动问答系统性能的核心要素。因此本文的研究工作围绕如何有效利用句法和语义信息来改进自动问答性能展开,设计并实现了一种基于常问问题集(FrequentlyAskedQuestions,FAQ)的自动问答系统--AnswerS。对其中的问题集组织、问题分析和答案检索等关键技术进行了讨论。
AnswerS中问题集的组织包括论坛数据采集、数据预处理、建立索引和问题集的更新等工作。在问题分析阶段,设计了一种基于WordNet的查询扩展方法,增大了检索的语义覆盖面;针对问答论坛数据集,提出一种新的问题分类特征选择方法,将句法和语义信息作为特征,在自定义的分类体系上训练出足够精确的问题分类器,增强了问题理解能力。为了实现更加准确的答案检索,引入依存项的概念,克服了传统标引项仅包含词形信息,而未涉及句法和语义信息的缺点,有效地表达了问题的自然语言句法特征,从而改进自动问答系统性能。
实验采用TREC推荐的MRR评测标准,在大量真实的网络数据集上,对AnswerS与基于传统向量空间模型的自动问答系统,以及问答论坛自带的“答案搜索”服务进行性能比较。结果表明,AnswerS系统性能明显优于另外两种自动问答系统,且对数据源适应性强,系统的改进效果十分稳定。可以预见自动问答领域具有重要的科研价值和广泛的商业前景。而本文的工作对相关网络增值服务具有很好的指导作用,为产品化的自动问答系统积累了经验。