基于FAQ与知识图谱的学分制智能问答系统研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:dzxt720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:学分制智能问答系统应用智能检索技术,与学生进行问答式的交互。系统通过自然语言处理NLP技术,可以准确地理解学生通过自然语言提出的问题,继而通过检索FAQ库与学分制的知识图谱,反馈给学生正确答案。相较于搜索引擎,基于学分制垂直领域的智能问答系统,能更好地满足学生对学分制信息的需求。
  关键词:智能问答系统;FAQ库;知识图谱
  中圖分类号:TP311 文献标识码:A
  文章编号:1009-3044(2019)31-0049-02
  现在,随着国家对教育的不断重视,在校大学生人数增长十分快,并且入学到毕业时间跨度大,而教学资源并没有很大增长趋势,尤其是师资力量,我国高校师生比普遍偏低。美国许多名校却与此相反,比如普林斯顿大学师生比例小于1:5,而布朗大学等也只是1:9.反观国内高校,师生比严重不协调,全国高校平均下来师生比例达到1:17.事实上,一些学校的热门专业的师生比例更低,有些低于1:20。
  随着教师职能的扩充,教师的工作量也在增大,一般的大学老师除了要给学生上课,还有相应的科研任务,时间十分宝贵。而在目前的教育模式下,学生与导师之间存在大量的问题咨询,这些问题通常具有普遍性,烦琐性以及重复性等特点,教师在一个同样的问题上可能回答数十遍,这影响了教师的工作效率,使得教师的时间更加稀少,并且由于教师工作压力大,很多时候没有办法及时回答学生的疑问。
  我们思考是否能有一种方法解决这种矛盾呢?文章构建了一个学分制智能问答系统来解决上述问题,学分制智能问答系统对自然语言处理、语义相似度计算和知识图谱实体匹配进行研究,能够及时准确地满足学生对学分制政策信息的需求,同时也能够很有效地节省人力物力。
  1国内外发展现状
  早在20世纪印年代,就有外国科学家提出计算机未来可能会使用自然语言去理解人类,这是问答技术首次出现在大众视野。1980年左右,使用自然语言提问的问答系统成为当时的一大热点。图灵测试向大众阐述了,计算机拥有人工智能的标准是使用自然语言与人交互。此后,学者们开始探索自然语言语义提取的相关操作,致力于自然语言问答系统。
  由于当时的技术问题,所有的实验的规模都十分有限。从20世纪90年代开始,随着各种技术的深入研究,众多搜索引擎公司的搜索范围、搜索速度都得到了大幅度的提高,因此人们更为看重检索技术的未来前景,但对智能问答技术的研究却一直停滞不前。进入20世纪以来,随着科学技术的再次飞跃,问答技术再次受到广泛的关注。
  目前,越来越多的公司和高校参与问答技术的研究。通过研究人员和学者的努力,一些成熟的、质量可以得到保证的智能问答系统和聊天机器人已经在工业界或学术界生产出来,如谷歌公司的Google Now和苹果公司发明的Siri,MIT大学也拥有Start系统,还有AskJeeves.AnswerBus.MULDER、LAMP等。
  与国外研究相比,中国国内对问答系统的研究在规模和研究水平上存在很多差距。这主要有两个原因。首先,中文信息处理比英语更困难,而且存在许多方面的差异。国外的现有的技术和已经产生的研究成果不可以直接投入使用。此外,难以解决的是自然语言处理资源的稀缺,如自然语料库、知识库和相应的评价机制等等。
  2自然语言处理技术
  自然语言处理模块的功能是:学生的问句被提交到后台,首先通过ANSJ对问句进行分词处理,得到分词后的结果;然后根据词性提取关键词,并使用HowNet得到关键词的所有扩展词项。根据词性和停用词表提取问句中的关键词,以防止出现扩展过多而影响检索效率的问题;其次对于关键词使用HowNet进行扩展,得到扩展词项。为了提高扩展的准确性,我们使用了目前流行的同义词扩展方式:基于HowNet的方式。我们使用知网进行,通过知网的方式扩展,可以获取到问句中关键词与知网中存在的词的相似度比较高的词,此处获取前n个,这样就得到扩展结果。
  3语义相似度计算
  通过对学生输入问句的处理,提取出关键词,进行相似度计算;对于高于阈值的问题,获取相似度最高的问句,通过FAQ问答库,得到对应的答案,将答案呈现给学生。具体的语义相似度计算如下。
  最后求出句子相似度之后,得到相似度顺序排列的问题集,从中找到相似度最高的问题作为学生问句的替代,对其进行FAQ库的检索,得到对应问题的答案,最终将结果呈现给学生。
  4基于VAQ库和知识图谱的问答功能
  问答功能简单讲就是将问题带人提前准备好的知识库寻求答案的一种基于知识库的问答系统。问答系统可以将获取的自然语言问句通过解析、计算相似度、检索FAQ库与学分制的知识图谱,反馈给学生正确答案。相较于搜索引擎,基于学分制垂直领域的智能问答系统,能更好地满足学生对学分制信息的需求。
  4.1基于FAQ库的问答
  FAQ问答是根据学生的学分制问题去FAQ知识库找到最合适的答案并反馈给学生。
  首先,对候选问题集进行离线索引,使用Lucene引擎为库中类似的问题集创建相应的索引,收到学生问题后,粗略选择部分问题集作为结果,之后再对这些结果进行筛选过滤,通过第3节介绍的相似度计算方法计算学生问题与过滤后的答案的匹配程度,选取相似度最高的问句,再对候选集查找,得到最好的候选答案返回给学生。
  以毕业为例:
  “我能毕业吗”关键词是毕业条件;
  “我几年能毕业”关键词是毕业修学年限;
  “我能提前毕业吗”关键词是提前毕业条件。
  当学生输入问题查找时,“毕业”对应候选集中多个相似问题,以这些问题作为粗排结果,之后通过相似度计算查找与学生输入的问题相似度最高的问题反馈给学生,如“我能提前毕业吗”中除了“毕业”关键词,还有“提前”这类关键词,而粗排结果中涉及这方面的只有“提前毕业条件”分别计算相似度:   S(“我能提前毕业吗”,“毕业条件”)=(0.2*1)/(0.1 0.5 0.2 0.2)=0.2
  s(“我能提前毕业吗”,“毕业修学年限”)=(0.2*1)/(0.1 0.5 0.2 0.2)=0.2
  s(“我能提前毕业吗”,“提前毕业条件”)=(0.2*1 0.2*1)/(0.1 0.5 0.2 0.2)=0.4
  由此得知其相似度高于候选集中其他的候选项,从而得出答案并反馈给学生。
  4.2基于知识图谱的问答
  知识圖谱可以概括为实体与属性的语义网络,可以很好地兼容学分制问答系统,对于知识图谱的构造,我们通过从学分制政策知识库中提取相应问题以及对应的关键词来形成知识图谱的节点,可以将这些数据称作学分制问答系统的“词典”。任何一个关键词均包含相关词汇,例如“毕业”包括“毕业条件”“毕业年限”“毕业论文”“提前毕业条件”等。前面已经说明,系统主要解决的问题是学生与教师问答的低效性与时间冲突问题,我们利用学分制“词典”对学生的问题进行逐一匹配。从而使问题与关键词建立起联系。
  学分制问答系统对于在FAQ中无法获得较高匹配的问题,根据关键词请求知识图谱接口,得到包含该实体的所有实体。
  知识图谱可以通过三个角度使问答系统更具有可行性:1)提高回答的精准性每一个关键词都有许多不同语义,如“毕业”,对应着“毕业条件”“毕业年限”等,而使用了知识图谱会反馈所有与其有关的信息,让学生找到自己需要的答案。2)简洁性配置了知识图谱,智能问答系统可以更好地理解学生输入的问题,并对得到的内容作出总结。3)拓展性“知识图谱”会给出与关键词有关的完整知识体系,所以学生会了解到更多学分制政策信息,如搜索“最少毕业学分”,系统会将“创新创业学分”展示出来,可能许多学生忽略了这个学分,这就使得系统实用性更强。
  5结论
  文章建立了基于FAQ与知识图谱的学分制问答系统,该系统结合FAQ库与知识图谱,通过自然语言处理模块、语义相似度计算模块和知识图谱实体匹配模块,对学生的提问进行一系列递归处理找到最终的答案反馈给学生,并拓展了许多类似问题给学生了解,既减轻了教师的负担,又满足了学生的需求。这种方式从知识体系完整的角度,让问题的答案更具追溯性和解释性,从而实现了较高层次的智能问答。但是中文信息不同于英语,不仅句式多样,语义复杂难懂,理解时更要考虑当前语境,汉语博大精深,有其自身的特点,国外先进的自然语言处理技术不能在中文领域继续使用。
其他文献
摘要:该文通过对国内外医疗绩效的研究,设计出了基于信息系统的医疗绩效平台的基本框架及实现的具体指标,经过指标的复杂计算后得出个人绩效,达到按劳分配,多劳多得的目的,让有限的医疗资源发挥最大效能,以更优质的医疗服务解除患者的病痛。  关键词:信息系统;医疗;绩效  中图分类号:R-058 文献标识码:A  文章编号:1009-3044(2019)31-0033-02  1基本框架  随着生活水平的日
该文论述了设计开发一个在线日程管理的web小程序设计和开发的过程,以及用javascript实现点击更改指定位置颜色的两种方法。
摘要:该文从高校毕业生就业信息管理系统的建设中存在的问题出发,寻找解决这些问题的方案,探讨高校就业联动信息管理系统的设计与实现方法。在高校就业联动信息管理系统的设计上要关注网络扩展、体系多元、信息引导、系统强化、素质建设等五个方面的问题,以保障整个系统的有效实现和利用。  关键词:高校就业;信息管理系统;设计与实现  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019
摘要:针对目前网民普遍关注的由互联网技术快速发展而带来海量网络热点话题和焦点很容易因误导或传播方式不当导致网络群体事件或突发事件问题,以“互联网 ”与网络舆情监控分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,设计实现了基于“互联网 ”的网络舆情监控系统。该系统主要由舆情数据信息采集子系统、舆情数据信息预处理子系统、舆情监控分析子系统和舆情应
摘要:该系统通过对苎麻种质资源信息进行分析和归类,设计一个以苎麻种质信息为核心的苎麻种质资源库,结合现在主流的JavaWeb技术,以htm15页面展示数据图片信息,使用户可以快速、方便地通过苎麻的各个特征查询苎麻的种质信息。系统后台使用Spring技术,结合MySQL数据库打造高可靠性和高稳定性的苎麻种质信息管理系统。  关键词:苎麻;种质资源;JavaWeb  中图分类号:TP311 文献标识码
摘要:科技的进步对人们的日常生活产生了重大且深远的影响,尤其是网络的广泛普及和应用,让人们得以享受更加便捷的服务。而伴随而来的网络安全问题也成了大家关注的焦点,当下日益增长的网络信息安全需求已经难以凭借传统网络安全分析进行处理,因此有必要引入更加先进的技术进行改善优化。鉴于此,文章以大数据技术为核心,探讨了其在网络安全分析领域的应用情况。  关键词:网络安全分析;大数据技术;应用  中图分类号:T
摘要:由于软件需求和版本的升级,软件代码的重构与演化成为软件维护的主要手段和关键技术需求。Hadoop分布式软件随着分布式大数据处理技术的不断发展,版本不断地升级,随之而来的是基于Hadoop平台的应用软件也需要升级。这种升级过程为软件演化技术的提出了新的挑战。该文针对基于Hadoop平台应用软件的演化方法和技术进行讨论,结合具体实例探讨演化方法实现的技术过程,验证演化方法和技术的有效性。该文主要
摘要:该文通过设计和实现一个基于android移动端的邮件系统,让我们对基于android的邮件系统有了一个深刻的认识,对开发的流程也有了深入的理解,该系统具有一定的代表性,因此对于基于android平台的系统开发有一定的借鉴意义。  关键词:移动端;邮件系统;功能  中图分类號:TP319 文献标识码:A  文章编号:1009-3044(2019)31-0047-02  1背景  随着现代社会的
摘要:针对当前高校创新创业工作中存在严重的信息碎片化问题,在对高校创新创业活动进行调研的基础上,该文提出了基于“教学导训测”一体化的高校创新创业教育体系思想,并在该思想的指导下,利用面向对象的程序设计方法开发设计了东北财经大学创新创业支持平台。该思想的提出和平台的建设可以更好地整合高校创新创业资源,推动高校创新创业工作高效有序地开展。  关键词:创新创业;高校;支持平台;教育体系;分析与设计  中
随着时代的发展,智能手机成为方便、快捷的通信工具并走进了千家万户,中小学生拥有手机已成为普遍现象,但这同时也带来了各种各样的问题与争论。为了解决目前中小学生沉迷手