论文部分内容阅读
[摘 要] 由于当前MOOC平台学习资源数量不断增长,检索引擎能否帮助用户准确定位其需要的课程对于用户体验而言意义重大。然而,当前国内主流MOOC平台的资源检索粒度较粗,用户难以针对想学习的某一具体知识点定位相关课程。鉴于此,提出了将知识图谱应用于MOOC平台资源检索的思路,并通过实体识别、关系分析、课程知识点发现等方法构建了面向MOOC数据的知识图谱,然后基于该图谱搭建了资源检索引擎。将该引擎与国防科技大学梦课平台进行了集成,并开展了用户调研以验证该引擎的有效性。实验结果表明,该引擎可有效针对知识点粒度进行资源检索,提升了用户使用体验。
[关 键 词] 知识图谱;检索引擎;MOOC;图数据库
[中图分类号] GTP315 [文献标志码] A [文章编号] 2096-0603(2021)24-0060-04
从2013年以来,国内在线教育蓬勃发展,MOOC(Massive Open Online Courses,大规模开放在线课程)这一学习模式在我国得到了越来越多用户的认同[1],诞生了诸如中国大学MOOC、学堂在线、智慧树等一系列知名MOOC平台[2],为用户在线学习提供了良好途径。随着平台规模的不断扩大,其学习资源数量快速增长,据统计,截至2019年,中国大学MOOC、学堂在线、智慧树等平台均已上线课程2000门左右[3]。庞大的课程数量一方面极大地丰富了用户的选择,但另一方面也使用户需要花费大量时间寻找满足自身学习需求的课程。在此情况下,平台的资源检索引擎变得至关重要,能否帮助用户更准确地在海量资源中找到其需要的课程,成为各个MOOC平台面临的挑战。然而,当前主流平台的资源检索机制大多是基于课程、教师、院校等基本信息的模糊查询,检索粒度较粗,用户难以针对想学习的某一具体知识点定位相关课程。鉴于此,本文提出并实现了一个基于知识图谱的MOOC平台资源检索引擎,该引擎首先通过实体识别、关系分析、课程知识点发现等方法,以图数据库为存储媒介,构建了面向MOOC数据的知识图谱;然后基于该知识图谱,辅以自然语义理解等技术,实现了粒度更加精细的资源检索。本文将该引擎与真实平台进行了集成,并开展了用户调研实验。结果表明,该引擎可有效针对知识点粒度检索相关课程,提升用户使用体验。
一、相关现状及研究分析
(一)当前国内主流MOOC平台的资源检索机制
本文对当前国内5个主流MOOC平台[3]的资源检索机制进行了调研,结果如表1所示。
从表1可以看到,当前国内5个主流MOOC平台的资源检索,对于各自平台上线的相关课程名称、课程简介、主讲教师名字、开课院校名称等基础信息,只有中国大学MOOC和学堂在线全都支持模糊查询,相比之下,智慧树、超星泛雅只支持基于课程名称、主讲教师名字和院校名称的模糊查询,网易云课堂的资源检索能力更弱,只支持课程名称和教师名字的模糊查询。
然而,当本文选取了一些课程知识点作为关键词进行查询时,发现这5个平台都无法检索到课程,或是返回的结果相关性不高。例如,在这些平台中,有部分关于Office Excel的学习课程中介绍了“Excel函数”这一知识点的内容,但当使用“Excel函数”作为关键词在智慧树平台进行查询时,平台没有检索到任何课程,而如果把该关键词拆分为“Excel”和“函数”分别查询,则平台分别返回名称包含“Excel”和“函数”的课程。在学堂在线平台同样使用“Excel函数”作为查询关键词时,虽然能够检索到课程,但返回的结果中也都是名称包含“Excel”或“函数”的课程,甚至还有复变函数、多元函数等数学领域的课程,与用户想查询的知识点关联甚远。其余3个平台也是类似情况。
针对上述现状,究其原因,在于这些平台在資源检索时只是简单地将搜索词与课程、教师以及院校的基本信息进行了关键词模糊匹配,检索粒度较粗,没有考虑课程所包含的章节信息以及它所涉及的知识点。因此,用户就难以针对想学习的某一具体知识点定位到相关课程资源。
(二)知识图谱相关应用研究
知识图谱最早于2012年由Google公司提出[4],并在此后在互联网信息检索、智能语音助手等领域大放异彩。Google公司基于知识图谱于2016年推出Knowledge Panel[5],提升了其在语义检索方面的能力;Apple公司推出的Siri语音助理产品中,知识图谱在对话理解方面也发挥了重要作用[6]。
知识图谱在通用领域已经有了一定的应用,然而,构建一个通用的知识图谱技术复杂、成本高昂,且通常难以专精于一些专业性较强的特定领域。因此,许多研究人员也转而在这些特定领域中探究知识图谱的构建与应用。例如,王渊等提出将知识图谱应用于国家电网数据中心,以实现在电力行业领域的用户智能问答[7];朱超宇等提出构建医学领域知识图谱以辅助对医学临床决策提供支持[8];冯力探索了利用知识图谱帮助公安机关进行智能化警情处置的思路[9];黄炜等提出知识图谱可应用于银行业风险控制和预测[10],等等
在教育领域,王家辉等基于知识图谱实现了一个微信智能刷题系统,以辅助提高学生复习效率[11];徐健等提出通过知识图谱改进MOOC教学模式,为用户提供个性化学习方案的思路[12];美国知名MOOC平台Khan Academy基于知识图谱展示课程涉及的知识点,为用户提供友好的可视化界面。总的来说,在该领域中,知识图谱的应用尚处于探索阶段,就我们所知,尚缺乏相关工作将知识图谱应用于MOOC平台的资源检索。 二、检索引擎设计与实现
在对国内主流MOOC平台的资源检索机制进行分析思考的基础上,本文提出并实现了一个基于知识图谱的MOOC平台资源检索引擎,总体框架如图1所示。
该引擎主要由三部分组成,首先,基于课程的名称、简介和包含的章节名称等文本信息,分析和提取课程涉及的知识点;其次,基于课程、教师、院校等实体以及它们的多維属性和关联关系,自动构建面向MOOC数据的知识图谱,并支持增量更新维护;最后,基于构建好的知识图谱,辅以自然语义理解等技术,实现MOOC平台的资源检索。
(一)基于关键词抽取的课程知识点发现
课程的知识点往往是能够代表该课程主题的关键词,因此本文将提取课程知识点的问题,转化为从课程的相关文本数据中抽取关键词的问题。课程的名称和简介往往是对课程内容的高度概括,可能会丢失某些知识点的信息,相比较而言,课程的章节是对课程内容更细致更具体的描述,因此,本文将课程的章节名称也纳入了抽取文本范围。
TF-IDF算法是当前自然语言处理领域比较成熟的关键词抽取算法,其基本原理为:如果一个词汇在某段文本中出现频率越高,而在整个文本语料库中出现频率越低,则该词汇越能代表那段文本的主题[13]。其计算方法如公式(1)所示。
TFIDF(ω)=TF(ω)×IDF(ω) 公式(1)
其中,TF意为词频(Term Frequency),它的含义是若某词汇在某文本中出现的频率越高,则该词汇的TF值越大。其计算方法为某词汇在某文本中出现的次数除以文本总词汇数。IDF意为逆向文本频率(Inverse Document Frequency),它的含义是在一个文本语料库中,若包含某词汇的文本越少,则该词汇的IDF值越大,表明该词汇具有较好的主题类别区分能力。其计算方法为文本语料库中的文本总数除以包含某词汇的文本的数量,再将得到的商取对数。
在实际应用过程中,由于MOOC数据中往往涉及很多专业领域内的术语和惯用语,导致使用通用的文本语料库效果不佳。针对这一情况,本文构建了针对MOOC数据的专业领域语料库,提升了TF-IDF算法抽取具有较强专业性的文本的关键词的效果。最后,本文选取每门课程中TF-IDF值排名前5的词汇,作为代表该课程主题的关键词,也即该课程的知识点。
(二)基于多维实体属性及关联关系的知识图谱构建与维护
知识图谱本质上是基于语义网的知识库,描述了客观世界的实体、属性以及它们之间的关系[14]。经过对平台MOOC数据的分析,本文总结了6个实体,分别是课程、章、节、知识点、教师和院校。每个实体具有多维属性,如课程具有名称和简介。同时,实体之间也存在逻辑上的关联关系,如课程包含章节、教师讲授课程等。
归纳的实体关系结构如图2所示,根据这些实体的属性信息及其关系网络,从平台的结构化数据中进行提取和加工,从而形成一种由点和边组成的、具有复杂关联关系的实体数据。
在存储这类实体数据时,关系型数据库通常需要为每个实体建立数据表以存储其属性内容,再依赖于建立和维护大量的关联表以实现实体之间的关联查询,存储开销大,处理效率低。因此,知识图谱的存储往往基于图数据库,其以图结构进行存储的特点,使之能够以图的顶点和边,自然地对应呈现复杂网络特征的实体及其属性和关联关系[15]。
根据著名数据库排行网站DB-Engines截止至2021年1月发布的最新排名,本文选取了目前最流行的图数据库Neo4j作为知识图谱的存储媒介,并通过图形查询语言Cypher操作Neo4j,实现了知识图谱的全量新建和增量维护。
(三)基于知识图谱的资源检索引擎搭建
用户的搜索内容往往覆盖范围广,而且表述千变万化。例如同时搜索院校和课程,或是教师和知识点。因此,在获取用户输入的搜索内容后,本文对这部分信息进行了自然语义理解,提取出不同属性的搜索关键词,以识别用户的搜索意图,并将其翻译为基于Cypher的图数据库查询语句交由Neo4j执行,最后得到资源检索结果。
基于图结构的查询实现了高效的、多关联条件的数据检索,帮助检索引擎在一次查询中能够考虑到全部的实体及其属性和关联关系。例如,在对概念名词属性的搜索关键词查询中,除了考虑课程的名称、简介等属性,检索引擎也将搜索词与课程的章节和知识点名称相匹配,并通过课程包含知识点、课程包含章、章包含节等关系来定位课程,从而实现粒度更加精细的资源检索。
三、检索引擎有效性验证
(一)实验设置
本文将实现的资源检索引擎与国防科技大学梦课平台(以下简称“科大梦课平台”)进行了集成,为了验证该检索引擎的有效性,本文邀请了20位平台用户参与调研,这20名志愿者将分别针对两组搜索场景,评价科大梦课平台和表1中列举的5个MOOC平台分别给出的资源检索结果是否符合他们的搜索意图。
1.评价指标
实验的评价指标基于李克特量表法(Likert-type scale)[16],这是目前最常用的用于衡量用户对某项事物的偏好或认同程度的评价方法。在本文中,李克特量表将分为3个等级,每个等级代表一种用户对平台资源检索结果的认同程度,并具有相应的分值,参与实验的人员将据此评价检索结果中的前3门课程,详细说明如表2所示。
基于用户使用体验考虑,本文认为更符合用户搜索意图的课程,应该排在检索结果中更靠前的位置。因此,本文对课程在检索结果中的排名赋予了一定的权重,并使用了加权平均李克特评分作为MOOC平台资源检索引擎有效性的评价指标,其计算方法如公式(2)所示。
其中,scorei表示实验人员对检索结果中第i门课程的评价分值,weighti表示该门课程的权重。本文规定,在检索结果中排名第一的课程的权重为1.0,其余依次递减0.2。每名实验人员独立打分,互不讨论,最后取平均数作为平台资源检索引擎的测试得分。 2.搜索场景
本文设置了两组搜索场景,每组场景中分别以一个大的概念和一个相关联的具体知识点作为搜索关键词,以对比平台在不同粒度下的检索效果,具体场景设置如表3所示。
(二)实验结果
各MOOC平台资源检索引擎在两个场景中的评分结果分别如图3和图4所示。
从图3可以看出,在搜索“網络安全”时,所有平台都给出了令人满意的检索结果,这是因为“网络安全”作为一个大的概念,它的所有相关课程在名称和简介中都会包含这一词汇。而当使用“网络加密”这一具体知识点作为搜索关键词时,只有科大梦课平台取得了较好的测试成绩。而在其他平台中,智慧树、超星泛雅和网易云课堂都没有检索到任何课程,中国大学MOOC和学堂在线虽然检索到一些课程,但与关键词的相关性不够高。表4展示了该关键词的具体检索结果。
经过实验人员核验,科大梦课平台检索到的两门课程均详细介绍了“网络加密”的相关知识。中国大学MOOC给出的检索结果中,只有第一门课程涵盖了“网络加密”的内容,其余两门则关联不大。在学堂在线的检索结果中,前两门均是数字货币的相关课程,与用户的搜索意图相差甚远,第三门只介绍了部分网络安全技术,没有涉及“网络加密”的内容。
进一步研究发现,当使用“网络安全”作为搜索关键词时,中国大学MOOC和学堂在线检索到的部分相关课程中包含“网络加密”知识点的介绍。然而在搜索“网络加密”时,这两个平台只是简单地分别用“网络”和“加密”这两个词汇去匹配课程的名称和简介,最后返回了一些与“网络加密”和“网络安全”都没有太大关联的课程。
如图4所示,在另一个实验场景中也得到了与上述分析相类似的结果。归根结底,当搜索关键词是一个比较具体的知识点,而且没有在课程的名称和简介中出现时,使用传统的基于课程信息的关键词匹配查询,难以给出令人满意的检索结果,而本文设计的基于知识图谱的检索引擎查询范围广,检索粒度细,可有效地基于知识点进行资源检索。
四、结语
本文针对当前主流MOOC平台的资源检索粒度较粗、用户难以针对想学习的某一具体知识点定位相关课程资源的问题,提出了将知识图谱应用于MOOC平台资源检索的思路,并通过实体识别、关系分析、课程知识点发现等方法构建了面向MOOC数据的知识图谱,然后基于该图谱搭建了资源检索引擎。本文将该引擎与国防科技大学梦课平台进行了集成,并开展了用户调研实验。结果表明,该引擎可有效针对知识点粒度检索相关课程,提升了用户使用体验。
参考文献:
[1]王雪宇,邹刚,李骁.基于MOOC数据的学习者辍课预测研究[J].现代教育技术,2017,27(6):94-100.
[2]程翥,李贵林,刘海涛.中国高等教育MOOC平台现状分析[J].高等教育研究学报,2014,37(2):15-19.
[3]马金钟,马森.基于学习者视角的国内主要MOOC平台比较研究[J].延边大学学报(社会科学版),2019,52(4):104-110,
143.
[4]Singhal A. Introducing the knowledge graph:things,not strings[J].Official google blog,2012,5.
[5]Goel K J,Thakur S A,Levy J L,et al. Knowledge panel:U.S. Patent 9,477,711[P]. 2016-10-25.
[6]Chen P,Lu Y,Zheng V W,et al. KnowEdu:a system to con-struct knowledge graph for education[J].Ieee Access,2018(6).
[7]王渊,彭晨辉,王志强,等.知识图谱在电网全业务统一数据中心的应用[J].计算机工程与应用,2019(15):14.
[8]朱超宇,刘雷.基于知识图谱的医学决策支持应用综述[J].数据分析与知识发现,2020,4(12):26-32.
[9]冯力.人工智能时代,利用知识图谱技术创新警情处置领域的应用[J].中国安防,2020(11):100-103.
[10]黄炜,高岽鸣,陈宁.知识图谱在银行业的应用分析[J].中国信用卡,2020(12):64-67.
[11]王家辉,文欣秀,赵敏,等.基于知识图谱的微信智能刷题系统[J].实验室研究与探索,2018,37(11):125-128,140.
[12]徐健,常允艳.基于知识图谱技术的MOOC教学模式构建研究[J].科技创新导报,2019,16(23):213-214,216.
[13]Shi C,Xu C,Yang X. Study of TFIDF algorithm[J].Journal of Computer Applications,2009,29(6):167-170,180.
[14]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.
[15]Miller J J. Graph database applications and concepts with Neo4j[C]//Proceedings of the Southern Association for Information Systems Conference,Atlanta,GA,USA. 2013,2324(36).
[16]Jamieson S. Likert scales:How to (ab) use them?[J]. Medical education,2004,38(12):1217-1218.
编辑 郭小琴
[关 键 词] 知识图谱;检索引擎;MOOC;图数据库
[中图分类号] GTP315 [文献标志码] A [文章编号] 2096-0603(2021)24-0060-04
从2013年以来,国内在线教育蓬勃发展,MOOC(Massive Open Online Courses,大规模开放在线课程)这一学习模式在我国得到了越来越多用户的认同[1],诞生了诸如中国大学MOOC、学堂在线、智慧树等一系列知名MOOC平台[2],为用户在线学习提供了良好途径。随着平台规模的不断扩大,其学习资源数量快速增长,据统计,截至2019年,中国大学MOOC、学堂在线、智慧树等平台均已上线课程2000门左右[3]。庞大的课程数量一方面极大地丰富了用户的选择,但另一方面也使用户需要花费大量时间寻找满足自身学习需求的课程。在此情况下,平台的资源检索引擎变得至关重要,能否帮助用户更准确地在海量资源中找到其需要的课程,成为各个MOOC平台面临的挑战。然而,当前主流平台的资源检索机制大多是基于课程、教师、院校等基本信息的模糊查询,检索粒度较粗,用户难以针对想学习的某一具体知识点定位相关课程。鉴于此,本文提出并实现了一个基于知识图谱的MOOC平台资源检索引擎,该引擎首先通过实体识别、关系分析、课程知识点发现等方法,以图数据库为存储媒介,构建了面向MOOC数据的知识图谱;然后基于该知识图谱,辅以自然语义理解等技术,实现了粒度更加精细的资源检索。本文将该引擎与真实平台进行了集成,并开展了用户调研实验。结果表明,该引擎可有效针对知识点粒度检索相关课程,提升用户使用体验。
一、相关现状及研究分析
(一)当前国内主流MOOC平台的资源检索机制
本文对当前国内5个主流MOOC平台[3]的资源检索机制进行了调研,结果如表1所示。
从表1可以看到,当前国内5个主流MOOC平台的资源检索,对于各自平台上线的相关课程名称、课程简介、主讲教师名字、开课院校名称等基础信息,只有中国大学MOOC和学堂在线全都支持模糊查询,相比之下,智慧树、超星泛雅只支持基于课程名称、主讲教师名字和院校名称的模糊查询,网易云课堂的资源检索能力更弱,只支持课程名称和教师名字的模糊查询。
然而,当本文选取了一些课程知识点作为关键词进行查询时,发现这5个平台都无法检索到课程,或是返回的结果相关性不高。例如,在这些平台中,有部分关于Office Excel的学习课程中介绍了“Excel函数”这一知识点的内容,但当使用“Excel函数”作为关键词在智慧树平台进行查询时,平台没有检索到任何课程,而如果把该关键词拆分为“Excel”和“函数”分别查询,则平台分别返回名称包含“Excel”和“函数”的课程。在学堂在线平台同样使用“Excel函数”作为查询关键词时,虽然能够检索到课程,但返回的结果中也都是名称包含“Excel”或“函数”的课程,甚至还有复变函数、多元函数等数学领域的课程,与用户想查询的知识点关联甚远。其余3个平台也是类似情况。
针对上述现状,究其原因,在于这些平台在資源检索时只是简单地将搜索词与课程、教师以及院校的基本信息进行了关键词模糊匹配,检索粒度较粗,没有考虑课程所包含的章节信息以及它所涉及的知识点。因此,用户就难以针对想学习的某一具体知识点定位到相关课程资源。
(二)知识图谱相关应用研究
知识图谱最早于2012年由Google公司提出[4],并在此后在互联网信息检索、智能语音助手等领域大放异彩。Google公司基于知识图谱于2016年推出Knowledge Panel[5],提升了其在语义检索方面的能力;Apple公司推出的Siri语音助理产品中,知识图谱在对话理解方面也发挥了重要作用[6]。
知识图谱在通用领域已经有了一定的应用,然而,构建一个通用的知识图谱技术复杂、成本高昂,且通常难以专精于一些专业性较强的特定领域。因此,许多研究人员也转而在这些特定领域中探究知识图谱的构建与应用。例如,王渊等提出将知识图谱应用于国家电网数据中心,以实现在电力行业领域的用户智能问答[7];朱超宇等提出构建医学领域知识图谱以辅助对医学临床决策提供支持[8];冯力探索了利用知识图谱帮助公安机关进行智能化警情处置的思路[9];黄炜等提出知识图谱可应用于银行业风险控制和预测[10],等等
在教育领域,王家辉等基于知识图谱实现了一个微信智能刷题系统,以辅助提高学生复习效率[11];徐健等提出通过知识图谱改进MOOC教学模式,为用户提供个性化学习方案的思路[12];美国知名MOOC平台Khan Academy基于知识图谱展示课程涉及的知识点,为用户提供友好的可视化界面。总的来说,在该领域中,知识图谱的应用尚处于探索阶段,就我们所知,尚缺乏相关工作将知识图谱应用于MOOC平台的资源检索。 二、检索引擎设计与实现
在对国内主流MOOC平台的资源检索机制进行分析思考的基础上,本文提出并实现了一个基于知识图谱的MOOC平台资源检索引擎,总体框架如图1所示。
该引擎主要由三部分组成,首先,基于课程的名称、简介和包含的章节名称等文本信息,分析和提取课程涉及的知识点;其次,基于课程、教师、院校等实体以及它们的多維属性和关联关系,自动构建面向MOOC数据的知识图谱,并支持增量更新维护;最后,基于构建好的知识图谱,辅以自然语义理解等技术,实现MOOC平台的资源检索。
(一)基于关键词抽取的课程知识点发现
课程的知识点往往是能够代表该课程主题的关键词,因此本文将提取课程知识点的问题,转化为从课程的相关文本数据中抽取关键词的问题。课程的名称和简介往往是对课程内容的高度概括,可能会丢失某些知识点的信息,相比较而言,课程的章节是对课程内容更细致更具体的描述,因此,本文将课程的章节名称也纳入了抽取文本范围。
TF-IDF算法是当前自然语言处理领域比较成熟的关键词抽取算法,其基本原理为:如果一个词汇在某段文本中出现频率越高,而在整个文本语料库中出现频率越低,则该词汇越能代表那段文本的主题[13]。其计算方法如公式(1)所示。
TFIDF(ω)=TF(ω)×IDF(ω) 公式(1)
其中,TF意为词频(Term Frequency),它的含义是若某词汇在某文本中出现的频率越高,则该词汇的TF值越大。其计算方法为某词汇在某文本中出现的次数除以文本总词汇数。IDF意为逆向文本频率(Inverse Document Frequency),它的含义是在一个文本语料库中,若包含某词汇的文本越少,则该词汇的IDF值越大,表明该词汇具有较好的主题类别区分能力。其计算方法为文本语料库中的文本总数除以包含某词汇的文本的数量,再将得到的商取对数。
在实际应用过程中,由于MOOC数据中往往涉及很多专业领域内的术语和惯用语,导致使用通用的文本语料库效果不佳。针对这一情况,本文构建了针对MOOC数据的专业领域语料库,提升了TF-IDF算法抽取具有较强专业性的文本的关键词的效果。最后,本文选取每门课程中TF-IDF值排名前5的词汇,作为代表该课程主题的关键词,也即该课程的知识点。
(二)基于多维实体属性及关联关系的知识图谱构建与维护
知识图谱本质上是基于语义网的知识库,描述了客观世界的实体、属性以及它们之间的关系[14]。经过对平台MOOC数据的分析,本文总结了6个实体,分别是课程、章、节、知识点、教师和院校。每个实体具有多维属性,如课程具有名称和简介。同时,实体之间也存在逻辑上的关联关系,如课程包含章节、教师讲授课程等。
归纳的实体关系结构如图2所示,根据这些实体的属性信息及其关系网络,从平台的结构化数据中进行提取和加工,从而形成一种由点和边组成的、具有复杂关联关系的实体数据。
在存储这类实体数据时,关系型数据库通常需要为每个实体建立数据表以存储其属性内容,再依赖于建立和维护大量的关联表以实现实体之间的关联查询,存储开销大,处理效率低。因此,知识图谱的存储往往基于图数据库,其以图结构进行存储的特点,使之能够以图的顶点和边,自然地对应呈现复杂网络特征的实体及其属性和关联关系[15]。
根据著名数据库排行网站DB-Engines截止至2021年1月发布的最新排名,本文选取了目前最流行的图数据库Neo4j作为知识图谱的存储媒介,并通过图形查询语言Cypher操作Neo4j,实现了知识图谱的全量新建和增量维护。
(三)基于知识图谱的资源检索引擎搭建
用户的搜索内容往往覆盖范围广,而且表述千变万化。例如同时搜索院校和课程,或是教师和知识点。因此,在获取用户输入的搜索内容后,本文对这部分信息进行了自然语义理解,提取出不同属性的搜索关键词,以识别用户的搜索意图,并将其翻译为基于Cypher的图数据库查询语句交由Neo4j执行,最后得到资源检索结果。
基于图结构的查询实现了高效的、多关联条件的数据检索,帮助检索引擎在一次查询中能够考虑到全部的实体及其属性和关联关系。例如,在对概念名词属性的搜索关键词查询中,除了考虑课程的名称、简介等属性,检索引擎也将搜索词与课程的章节和知识点名称相匹配,并通过课程包含知识点、课程包含章、章包含节等关系来定位课程,从而实现粒度更加精细的资源检索。
三、检索引擎有效性验证
(一)实验设置
本文将实现的资源检索引擎与国防科技大学梦课平台(以下简称“科大梦课平台”)进行了集成,为了验证该检索引擎的有效性,本文邀请了20位平台用户参与调研,这20名志愿者将分别针对两组搜索场景,评价科大梦课平台和表1中列举的5个MOOC平台分别给出的资源检索结果是否符合他们的搜索意图。
1.评价指标
实验的评价指标基于李克特量表法(Likert-type scale)[16],这是目前最常用的用于衡量用户对某项事物的偏好或认同程度的评价方法。在本文中,李克特量表将分为3个等级,每个等级代表一种用户对平台资源检索结果的认同程度,并具有相应的分值,参与实验的人员将据此评价检索结果中的前3门课程,详细说明如表2所示。
基于用户使用体验考虑,本文认为更符合用户搜索意图的课程,应该排在检索结果中更靠前的位置。因此,本文对课程在检索结果中的排名赋予了一定的权重,并使用了加权平均李克特评分作为MOOC平台资源检索引擎有效性的评价指标,其计算方法如公式(2)所示。
其中,scorei表示实验人员对检索结果中第i门课程的评价分值,weighti表示该门课程的权重。本文规定,在检索结果中排名第一的课程的权重为1.0,其余依次递减0.2。每名实验人员独立打分,互不讨论,最后取平均数作为平台资源检索引擎的测试得分。 2.搜索场景
本文设置了两组搜索场景,每组场景中分别以一个大的概念和一个相关联的具体知识点作为搜索关键词,以对比平台在不同粒度下的检索效果,具体场景设置如表3所示。
(二)实验结果
各MOOC平台资源检索引擎在两个场景中的评分结果分别如图3和图4所示。
从图3可以看出,在搜索“網络安全”时,所有平台都给出了令人满意的检索结果,这是因为“网络安全”作为一个大的概念,它的所有相关课程在名称和简介中都会包含这一词汇。而当使用“网络加密”这一具体知识点作为搜索关键词时,只有科大梦课平台取得了较好的测试成绩。而在其他平台中,智慧树、超星泛雅和网易云课堂都没有检索到任何课程,中国大学MOOC和学堂在线虽然检索到一些课程,但与关键词的相关性不够高。表4展示了该关键词的具体检索结果。
经过实验人员核验,科大梦课平台检索到的两门课程均详细介绍了“网络加密”的相关知识。中国大学MOOC给出的检索结果中,只有第一门课程涵盖了“网络加密”的内容,其余两门则关联不大。在学堂在线的检索结果中,前两门均是数字货币的相关课程,与用户的搜索意图相差甚远,第三门只介绍了部分网络安全技术,没有涉及“网络加密”的内容。
进一步研究发现,当使用“网络安全”作为搜索关键词时,中国大学MOOC和学堂在线检索到的部分相关课程中包含“网络加密”知识点的介绍。然而在搜索“网络加密”时,这两个平台只是简单地分别用“网络”和“加密”这两个词汇去匹配课程的名称和简介,最后返回了一些与“网络加密”和“网络安全”都没有太大关联的课程。
如图4所示,在另一个实验场景中也得到了与上述分析相类似的结果。归根结底,当搜索关键词是一个比较具体的知识点,而且没有在课程的名称和简介中出现时,使用传统的基于课程信息的关键词匹配查询,难以给出令人满意的检索结果,而本文设计的基于知识图谱的检索引擎查询范围广,检索粒度细,可有效地基于知识点进行资源检索。
四、结语
本文针对当前主流MOOC平台的资源检索粒度较粗、用户难以针对想学习的某一具体知识点定位相关课程资源的问题,提出了将知识图谱应用于MOOC平台资源检索的思路,并通过实体识别、关系分析、课程知识点发现等方法构建了面向MOOC数据的知识图谱,然后基于该图谱搭建了资源检索引擎。本文将该引擎与国防科技大学梦课平台进行了集成,并开展了用户调研实验。结果表明,该引擎可有效针对知识点粒度检索相关课程,提升了用户使用体验。
参考文献:
[1]王雪宇,邹刚,李骁.基于MOOC数据的学习者辍课预测研究[J].现代教育技术,2017,27(6):94-100.
[2]程翥,李贵林,刘海涛.中国高等教育MOOC平台现状分析[J].高等教育研究学报,2014,37(2):15-19.
[3]马金钟,马森.基于学习者视角的国内主要MOOC平台比较研究[J].延边大学学报(社会科学版),2019,52(4):104-110,
143.
[4]Singhal A. Introducing the knowledge graph:things,not strings[J].Official google blog,2012,5.
[5]Goel K J,Thakur S A,Levy J L,et al. Knowledge panel:U.S. Patent 9,477,711[P]. 2016-10-25.
[6]Chen P,Lu Y,Zheng V W,et al. KnowEdu:a system to con-struct knowledge graph for education[J].Ieee Access,2018(6).
[7]王渊,彭晨辉,王志强,等.知识图谱在电网全业务统一数据中心的应用[J].计算机工程与应用,2019(15):14.
[8]朱超宇,刘雷.基于知识图谱的医学决策支持应用综述[J].数据分析与知识发现,2020,4(12):26-32.
[9]冯力.人工智能时代,利用知识图谱技术创新警情处置领域的应用[J].中国安防,2020(11):100-103.
[10]黄炜,高岽鸣,陈宁.知识图谱在银行业的应用分析[J].中国信用卡,2020(12):64-67.
[11]王家辉,文欣秀,赵敏,等.基于知识图谱的微信智能刷题系统[J].实验室研究与探索,2018,37(11):125-128,140.
[12]徐健,常允艳.基于知识图谱技术的MOOC教学模式构建研究[J].科技创新导报,2019,16(23):213-214,216.
[13]Shi C,Xu C,Yang X. Study of TFIDF algorithm[J].Journal of Computer Applications,2009,29(6):167-170,180.
[14]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.
[15]Miller J J. Graph database applications and concepts with Neo4j[C]//Proceedings of the Southern Association for Information Systems Conference,Atlanta,GA,USA. 2013,2324(36).
[16]Jamieson S. Likert scales:How to (ab) use them?[J]. Medical education,2004,38(12):1217-1218.
编辑 郭小琴