论文部分内容阅读
随着各种教学网站的出现以及基于网络教学研究的不断深入,老师与学生的在线信息交流也日益丰富起来。在很多教学系统中,在线答疑已经成为师生交流的基本工具。然而伴随着学生提问频数的不断增加,教师对于大量问题进行一一回答的方式已经明显不能满足学生学习的需要,教师不可能时刻在线,也没有那么多的精力逐个回答学生提出的问题,在交流中学生更加希望能够给予及时有效的回答,于是一种智能化的自动答疑系统成了迫切的需要。智能答疑采用了友好的自然语言接口,使网络教学真正起到辅助教学的作用。数据挖掘在各个领域应用不断发展,近年来人们致力于寻找新的发展空间。本课题将数据挖掘算法应用于智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以实现,目标是改正当前的汉语答疑系统中存在的一些缺点,实现一个高效快速准确的智能答疑系统。该方案的设计思想:第一,充分收集教学网站中提问回答及讨论与评价等相关信息;第二,从每个问题所对应的许多答案中抽取出一个最优答案,生成一个一一对应的问题答案对库,然后进行分类存储,最后形成一个可以直接用于数据挖掘的信息全面的QA数据仓库。这一步将基于关键词的关联规则用于文档的相似度计算中,不仅可以为每个问题找出最优答案,而且可以提高问题文本聚类的查全率和查准率。将聚类后的每一类问题应用关联规则,可以得到更加准确的关联表,同时也促使相似度的精确度得以提高。因此这一循环操作可以提高答疑速率与精度;第三,系统答疑。将用户提出的问题分析,快速定位到某一类,再从数据库中查得与用户提出问题最相关的问题答案对,即相似度最大的文档,将其答案返回给用户,并将问题答案存入数据仓库,备与第二步之用。实验证明文本聚类查全率与查准率都有明显提高,该系统具有智能性,自我更新性能,不仅节约了问题答案对的存储空间而且提高了系统答疑速率与准确率等优点。