论文部分内容阅读
随着网络信息的爆炸式的增长,各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候,他们往往需要花费很多的时间去筛选搜索引擎返回的结果。交互式问答系统的诞生有效的解决了前面提到的信息烦杂的问题。问答系统采用自然语言处理的方法将用户提交的问题进行分析,获取相关答案然后返回给用户。问句自动生成将会在缺少人机交互的情况下为交互式问答系统提供问答对。这些问答对可以根据系统需要限定在某一领域内存在也可以作为通用领域问答对。目前针对英文问句自动生成技术已经有了很大的发展,这些技术已经被应用到问答系统,对话系统以及教学系统等。中文问句自动生成的研究才刚刚起步,有很多的问题需要科研人员来解决。本课题是针对中文问答系统语料库不完善这个问题,提出通过自动的生成中文问答对来对问答系统语料库进行补充。本课题研究内容如下所示:1.中文问句自动生成系统当前,问句自动生成系统不能像人那样直接理解一句话的意思。因此问句生成前的信息预处理是每个问题生成系统所必需进行的。本课题采取分布式设计,将中文信息提取分成两大部分共七类的信息由不同的功能单元机进行处理,最终处理后的结果返回给问句生成系统。本课题设计了一种基于句法信息与句式信息相结合的问句生成算法,根据他们的信息生成特殊疑问句或者是因果关系疑问句。2.生成问句的自动分类本课题提出一种根据对命名实体分类与部分模板匹配的算法,将生成6类问句。这六类的问句分别是人名类问句,地名类问句,时间表达式类问句,机构名称类问句,定义类问句和因果关系类问句。3.系统的评测与改进英文问题生成系统定义了一系列的评测标准。本课题将借鉴其中某些标准来对系统进行评测。同时邀请部分用户参与系统测试,根据他们的反馈情况有针对性的进行系统的完善和补充。