基于FAQ的自动问答技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:silas20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上Web信息爆炸性地增长,如何从海量数据中快速准确的找到所需信息已成为亟待解决的问题。传统以关键词模式的搜索服务在一定程度上已不能满足人们对信息获取的要求。自动问答系统利用自然语言的形式进行提问和回答,且返回的结果更加精确,也更符合用户需求,逐渐成为热点的研究方向。目前自动问答领域已经积累了大量的研究成果,但还没能像搜索引擎形成商业化应用,主要由于缺少丰富的数据集支持,存在知识库规模不足、知识获取困难的瓶颈问题。交互式问答论坛是一种流行的网络服务,上面积累了大规模高质量的问答主题数据,为自动问答提供了天然的理想的数据集。   本文研究基于问答论坛数据集构建自动问答系统的过程。在分析总结现有研究成果的基础上,发现自然语言句法和语义信息是影响自动问答系统性能的核心要素。因此本文的研究工作围绕如何有效利用句法和语义信息来改进自动问答性能展开,设计并实现了一种基于常问问题集(FrequentlyAskedQuestions,FAQ)的自动问答系统--AnswerS。对其中的问题集组织、问题分析和答案检索等关键技术进行了讨论。   AnswerS中问题集的组织包括论坛数据采集、数据预处理、建立索引和问题集的更新等工作。在问题分析阶段,设计了一种基于WordNet的查询扩展方法,增大了检索的语义覆盖面;针对问答论坛数据集,提出一种新的问题分类特征选择方法,将句法和语义信息作为特征,在自定义的分类体系上训练出足够精确的问题分类器,增强了问题理解能力。为了实现更加准确的答案检索,引入依存项的概念,克服了传统标引项仅包含词形信息,而未涉及句法和语义信息的缺点,有效地表达了问题的自然语言句法特征,从而改进自动问答系统性能。   实验采用TREC推荐的MRR评测标准,在大量真实的网络数据集上,对AnswerS与基于传统向量空间模型的自动问答系统,以及问答论坛自带的“答案搜索”服务进行性能比较。结果表明,AnswerS系统性能明显优于另外两种自动问答系统,且对数据源适应性强,系统的改进效果十分稳定。可以预见自动问答领域具有重要的科研价值和广泛的商业前景。而本文的工作对相关网络增值服务具有很好的指导作用,为产品化的自动问答系统积累了经验。
其他文献
生物信息学自上世纪90年代人类基因组计划全面开展以来,已成为21世纪自然科学的重要前沿领域之一。随着越来越多的模式生物测序完成,开始进入后基因组时代。其中转录调控是后
学位
近年来随着3G的商用部署和手机的跨领域功能融合,越来越多的互联网应用搬上了手机。嵌入式浏览器无疑已成为人们触及手机互联网应用的最好媒介。嵌入式Web浏览器已逐渐成为高
学位
互联网及信息技术的高速发展带来了网络信息量爆炸式增长。在互联网上“Pull”信息的方式暴露出越来越明显的缺点。RSS(Really Simple Syndication,真正的简单聚合)随即出现
学位
目前动画技术已经深入渗透到众多领域。全过程计算机辅助动画自动生成是一个结合人工智能与现代多媒体技术的课题,由中科院陆汝钤院士首次提出,并研制出原型系统《天鹅》。古
学位
人工智能是计算机科学的一个分支,是用于模拟和扩展人类智能的理论和技术方法。人工智能在上个世纪50年代被提出,经历了半个多世纪的发展,人工智能已经成为了一门庞大的科学,
快速发展的现代互联网在给人们带来大量信息的同时,也不可避免地产生了难以让用户快速获取有效信息的问题。搜索引擎的出现使这一问题得到了一定程度的缓解。它面向任何Web用
学位
存储技术的高速发展对存储管理提出了更高的要求。如何降低管理的复杂性以及提高管理软件之间的互可操作性,实现对不同存储系统集中的实时监控和远程管理已经成为一个热点问
学位
可信计算是一种信息系统安全新技术,提供数据完整性、安全存储、平台身份证明等可信功能,从终端入手解决信息安全问题。用户获取可信功能必须通过平台的授权认证,因此授权认
当前OCR识别方案已经发展到较高的水平,基于单一引擎、单一识别方案的OCR系统的识别率几乎达到极限,在此基础上提高识别率难度较大,因此国内外的研究重点开始转移到多识别方
学位
随着网络技术的飞速发展以及频繁使用到我们的生活工作当中,使得用户无限制的使用移动终端连接分布式移动数据库,这样造成连接能力,随时随地的移动,数据中事务处理的同步成为