论文部分内容阅读
近几年,大规模开放网络课程MOOC引发全球的关注和参与。自动答疑是MOOC平台中重要的辅助教学模式,采用问答系统实现自动答疑是目前研究的热点内容。目前国内多数教学问答系统对用户问题的理解仍然局限在关键词匹配和FAQ库检索的模式。但是,特定课程领域问答通常涉及对领域专业词汇的理解,而关键词匹配的方式不能达到此要求;同时,FAQ库资源有限,对于超出其范围的问题无法回答。因此,现有的教学问答系统智能性和开放性不足,不能满足用户需求。 针对以上问题,本文提出了针对特定课程的基于互联网的智能问答系统模型,通过构建课程的知识结构体系来实现对领域专业词汇的理解,并且利用内容丰富的互联网资源对FAQ库进行补充。当FAQ库中检索不到有效答案时,系统为用户问题自动制定检索策略,通过搜索引擎对互联网信息进行检索,并且结合领域背景知识对检索结果进行处理,最终形成易于理解的答案返回给用户,并进行FAQ库自动扩充。 本文的主要工作包括: 1)分析课程知识语料,采用领域知网作为课程知识表达模型,通过填充课程内容构建课程的知识结构体系,并且在此基础上提出基于互联网的智能问答系统模型。 2)研究互联网信息检索技术,提出检索策略,通过领域知网的丰富语义对用户的自然语言问题进行语义理解,结合搜索引擎使用技巧生成检索内容提交给搜索引擎,并获取检索结果。 3)研究影响搜索引擎检索结果排序的因素,提出基于特定课程领域的用户问题与网页内容相关度计算方法;同时综合考虑页面的内容相关度和重要度两项因素,提出用于页面排序的权重计算方法。 4)研究答案抽取技术,提出段落检索算法用于提取页面文档中与用户问题相关度最高的段落,将其作为用户问题的答案。 5)在上述研究的基础上,设计应用于特定课程的基于互联网的智能问答系统——Doraemon,最终实现Doraemon原型系统并进行了必要的实验分析。实验结果表明,本文提出的Doraemon系统能为用户提供兼具准确性与有效性的答案。