论文部分内容阅读
摘要:学科领域本体能够将隐含在领域专家头脑中的学科知识复杂关系显性的表达,被用于众多个性化学习系统中。本文提炼出初等数学领域的概念,关系与属性,构建了初等数学领域本体,并实现了基于本体的智能分词与相关知识搜索。实验表明本体能更好地表达知识间的内在关联,能够支撑后续的基于知识库的个性化学习行业应用。
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)19-0203-03
本体的概念最早起源于哲学,是关于存在的系统说明,可以看作是特定领域的概念化的明确说明,是对概念和概念之间关系的描述,后来被引入到人工智能、知识工程等领域。本体是一种能够在语义和知识层次上描述信息的概念模型建模工具,自提出來就引起了国内外众多科研机构及人员的关注,并在计算机许多领域得到了广泛应用[1,2,3],从而使得信息检索从基于关键词的层面提高到基于知识层面成为可能。领域本体将隐含在领域专家头脑中的或者智能程序中的概念模型显示地表达出来。由于教育领域知识的复杂性,使用本体来表示教育领域知识,可以从根本上解决教育资源共享、重用、以及个性化推送等问题。
随着Internet的迅速发展和全球对终身教育需求,以异步教育方式为主要特征的基于Web的在线学习已成为Internet上的一种重要应用[4,5,6]。资源推荐技术是在线个性化学习系统的核心,它很大程度上决定了学习效果的优劣。在众多推荐方法中,基于知识的推荐就包含了基于本体的推荐。基于本体的教育领域知识库的构建与知识搜索是后续个性化学习应用的基石,尤为重要。
本文以初等数学为例,阐述了基于本体的初等数学知识图谱的构建方法与步骤,并在此基础上研究了基于本体的知识搜索的方法。
1 初等数学本体构建思路
初等数学领域本体采用七步法构建,该方法由斯坦福大学医学院开发的主要用于领域本体的构建。基本流程(七个步骤)如下:
1) 确定本体的专业领域和范畴。在确定范畴过程中参考了《中文主题词汇表》初等数学部分的主题词汇;初中数学教材;初中数学教学大纲;人教版初中数学知识点总结;人教版初中数学考点总结(来自方正题库)。
2) 现阶段无成熟的、可重用的初等数学本体。
3) 列出初等数学本体中的重要术语。本体论主要探讨存在本身,即一切现实事物的基本特征。对于本体论来说,最基本的是找出什么是物体、什么是概念以及它们之间的联系。通过分析初中数学本体的专业领域和范畴,发现数学研究的核心问题是数,几何图形两个客观存在,以及在此基础上衍生出的一系列问题。
以几何图形图形为例:几何图形包含点,线,平面图形,立体图形等,要认识这些图形,可能涉及到的问题是图形的表示,图形的特点,图形的变换,图形的测量,以及特定图形的内在性质等。因此,我们提取出与几何图形相关的概念:关系,变换,表示,度量,得到了概念与概念之间的关系:①几何图形的关系;②几何图形的变换;③几何图形的表示;④几何图形的度量。
同法,我们得到了初等数学体系中的一系列概念,以及概念与概念之间的关系。
4) 定义类和类的等级关系。
概念间显然是具有等级关系的,这是概念的固有属性,但在应用中,概念的等级关系可以有多种表达,如有理数概念的关系可以有以下两种表达:
因此,可以从本体创建目标出发,选择适合资源推荐的等级关系是合适的。三角形是多边形的一种,它属于多边形,但三角形是初中数学中很重要的一种图形,故三角形直接隶属于几何图形,便于检索和资源推送。我们通过跟专家讨论,评价,最终确定了几何图形的层次关系,如图2所示:
5) 定义类的属性。类的属性描述的是类与类之间的关系(这里的类就是上述提到的概念),在提取概念的过程中已经梳理出概念与概念的关系,在这只需要形式化描述即可。在初等数学知识本体模块中,除了各层次之间的父子关系代表属于关系外,在底层的知识点存在大量逻辑关系。由于知识点是知识组织的最基本单位,这些关系也将会成为检索的基本依据。同时这些逻辑关系也可以映射到本体概念中,从而演化为初等数学领域本体中推理的规则。本文设计使用了以下四种知识点之间的关系。
①学习顺序关系:也可以称为学习依赖关系。即表示学习过程中知识点的前后依赖关系。若在学习知识点A之后才能学习知识点B,则称A为B的前序知识点,标识为B hasPreKA,同时B为A的后序知识点,标识为A hasPostK B。如果学习完知识点A以后就可以直接学习知识点B,则A为B的直接前序知识点,标识为B hasDirectPreKA A,B为A的直接后序知识点,标识为A hasDirectPostK B。例如,数学中知识点“有理数的认识”后序知识点有“有理数的运算”、“整式的运算”,其中直接后序知识点是“有理数的运算”。
②参考关系:若知识点A和B不存在学习顺序关系,但因为学习知识点A后能促进对知识点B的理解,则称知识点A和B存在参考关系,标识为A hasReference B。参考关系满足自反性和传递性,若有A hasReference B,B hasReference C,则有AhasReference C。例如,知识点“因式分解”和知识点“解二元一次方程”存在参考关系。
③蕴含关系:如果知识点只是概念上的相互包含,并不存在学习顺序关系和参考关系,则说明为蕴含关系。知识点A直接蕴含知识点B,记为A hasDirectPart B(或B isDirectPartOf A)。蕴含关系满足传递性。例如,知识点“方程组的求解”蕴含知识点“一元二次方程求解”和知识点“二元一次方程求解”。
④兄弟关系:如果多个知识点A、B都同时蕴含于同一个父知识点,则称知识点A、B有兄弟关系,记为A hasSiblingB,也可以记为B hasSibling A,兄弟关系满足自反性和传递性。例如,知识点“方程组的求解”蕴含知识点“一元二次方程求解”和知识点“二元一次方程求解”,则知识点“一元二次方程求解”和知识点“二元一次方程求解”为兄弟关系。hasSibling关系可以根据推理得到,推理规则描述为如果x 是y的父节点,x也是z的父节点,则y和z是兄弟关系。推理规则表达如下 hasDirectPart(?x, ?y), hasDirectPart(?x, ?z) ->isSiblingof(?y, ?z)
6) 定义属性的分面。概念需要分层,属性也需要分面。如A直接蕴含知识点B,B直接蕴含知识点C,则A蕴含知识点C。设置hasPart表示蕴含关系,hasDirectPart属于hasPart关系,但表示直接蕴含关系。
7) 创建实例
一个实例可以同属于多个类,实例与实例之间也可以通过对象属性关联。
2 初等数学本体构建实践
2.1 顶层本体库
初等数学本体第一级为Thing,第二级为学习阶段,教材体系版本,数学。以后本体可在第二级扩展其他学科本体。第三级数学本体,包含了本领域内的重要术语。其中知识点子类包含初中数学所有知识点,这些知识点以实例的形式存在(菱形表示)
2.2 实例关系的
在领域专家的参与下,将初一数学整式部分知识点归纳图4所示。
并用protégé建立的本体模型如图5所示。图中用不同颜色区分不同的对象属性。通过这些对象属性,建立知识点与知识点之间的关系,其中包括包含关系,学习顺序关系,参考关系,包含关系,兄弟关系等。根据领域专家的建议,为每种关系定义相应的权值,从而构成知识点间的关系权重,如下图所示。其中节点表示知识点,边表示在本体中构建的关系,边上标识的数值为权重。权重越大,表示依赖关系就越强。
3基于本体的智能分词与相关知识搜索
3.1 智能分词
基于本体的知识搜索部分输入参数为知识点,输出参数为按照权重顺序输出相关知识点。因为本体提供了一组通用的公认的术语和概念来描述某个领域,因此用它来对查询字段进行智能分词是可行的。如搜索“三角形的边角关系”,则通过本体概念的比对,发现,“三角形”是本体中包含在“几何图形”中的概念,“边角关系”是本体中包含在“关系”中的概念,“三角形边角关系”是“三角形”和“边角关系”概念下的知识点。该知识点下的资源就是相关度最高的资源。同时,三角形概念的知识点还有“三角形内角和定理”,“勾股定理”,“三角形的分类”等知识点,边角关系概念下也就“三角形边角关系”,“多边形的内角和定理”“多边形的外角和定理”等知识点,这些知识点下的资源相关度次之,三角形又分为等腰三角形,直角三角形等概念,等腰三角形下有“等腰三角形的判定”知识点,直角三角形下有“勾股定理”知识点。这些知识点下的资源相关度更低。至此,基于本体的智能搜索归结为计算知识点间的相关度的计算问题。
3.2相关知识搜索
基于本体的搜索引擎的基本设计思想为根据相关度排序搜索出与输入相关的知识点。可以归结为集合的运算。实现算法如下:
如果输入参数能与知识点完全匹配,则相关度最高,优先输出该知识点,并进一步利用本体推理,找到与该知识点直接相关的知识点。
如果未能完全匹配某个知识点,则在本体的基础上进行智能分词,如“AB”,则可分解为“A” “B”(A,B是本体中定义的概念),知识点推荐顺序为
① 首先找[A?B](?x)
② 然后找[A?B](?x)
③ 如果A存在子类,则推出[Ai](?x),[Ai?A]
④ 如果B存在子类,则推出[Bi](?x),[Bi?B]
⑤ 如果“ABC”只可分解为A B,C在本体中未定义,跳转到①
如果不满足以上条件,则输出结果为空。
3.3 搜索结果分析
本文将3.2节提出的基于本体的知识搜索与基于关键字的搜索进行了实验对比,在第2节中构造的本体中进行搜索,输入参数分别为“合并同类项”,“三角形”,“一元二次方程”,输出知识点的数量对比如表1所示。
从实验结果中可以看出,基于本体的知识检索能找到更多的资源,这是因为在进行检索时,系统会根据用户输入参数找到相关知识点,并对其进行关系的扩展,即使用户不指定关系,系统也会进行推理扩展搜索范围。
4 结论
个性化学习是当前教育界非常重要的研究应用方向。其中构建学科知识图谱是应用的核心和基础。本文以构建初等数学学科知识库为目的,研究了将本体模型应用于初等数学学科资源的建模问题,建立了知识点间的多种关联关系,实现了基于初等数学知识库的知识搜索应用。本文对学科领域知识库的构建的探索,为后续的基于知识库的个性化学习的行业应用提供了基础。
参考文献:
[1] 邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报,2002,38(5):730-738.
[2] NECHES R, FIKES R, FININ T, et al. Enabling technology for knowledge sharing[J].AI Magazine,1991,12(3):36-56.
[3] GRUBER T R.A translation approach to portable ontology specifications [Jl. Knowledge Acquisition, 1993,5(2):199-220.
[4] 盛东方, 孙建军. 基于语义搜索引擎的学科知识服务研究——以GoPubMed为例[J]. 图书情报知识, 2015(4):113-120.
[5] 马斌, 王金虹, 闫娟娟,等. 基于本体的智能语义检索模型設计与研究[J]. 情报科学, 2015(2):46-49.
[6] 齐云飞, 赵宇翔, 朱庆华. 基于BIBFRAME的数字图书馆语义搜索框架研究[J]. 图书与情报, 2017(1):74-81.
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)19-0203-03
本体的概念最早起源于哲学,是关于存在的系统说明,可以看作是特定领域的概念化的明确说明,是对概念和概念之间关系的描述,后来被引入到人工智能、知识工程等领域。本体是一种能够在语义和知识层次上描述信息的概念模型建模工具,自提出來就引起了国内外众多科研机构及人员的关注,并在计算机许多领域得到了广泛应用[1,2,3],从而使得信息检索从基于关键词的层面提高到基于知识层面成为可能。领域本体将隐含在领域专家头脑中的或者智能程序中的概念模型显示地表达出来。由于教育领域知识的复杂性,使用本体来表示教育领域知识,可以从根本上解决教育资源共享、重用、以及个性化推送等问题。
随着Internet的迅速发展和全球对终身教育需求,以异步教育方式为主要特征的基于Web的在线学习已成为Internet上的一种重要应用[4,5,6]。资源推荐技术是在线个性化学习系统的核心,它很大程度上决定了学习效果的优劣。在众多推荐方法中,基于知识的推荐就包含了基于本体的推荐。基于本体的教育领域知识库的构建与知识搜索是后续个性化学习应用的基石,尤为重要。
本文以初等数学为例,阐述了基于本体的初等数学知识图谱的构建方法与步骤,并在此基础上研究了基于本体的知识搜索的方法。
1 初等数学本体构建思路
初等数学领域本体采用七步法构建,该方法由斯坦福大学医学院开发的主要用于领域本体的构建。基本流程(七个步骤)如下:
1) 确定本体的专业领域和范畴。在确定范畴过程中参考了《中文主题词汇表》初等数学部分的主题词汇;初中数学教材;初中数学教学大纲;人教版初中数学知识点总结;人教版初中数学考点总结(来自方正题库)。
2) 现阶段无成熟的、可重用的初等数学本体。
3) 列出初等数学本体中的重要术语。本体论主要探讨存在本身,即一切现实事物的基本特征。对于本体论来说,最基本的是找出什么是物体、什么是概念以及它们之间的联系。通过分析初中数学本体的专业领域和范畴,发现数学研究的核心问题是数,几何图形两个客观存在,以及在此基础上衍生出的一系列问题。
以几何图形图形为例:几何图形包含点,线,平面图形,立体图形等,要认识这些图形,可能涉及到的问题是图形的表示,图形的特点,图形的变换,图形的测量,以及特定图形的内在性质等。因此,我们提取出与几何图形相关的概念:关系,变换,表示,度量,得到了概念与概念之间的关系:①几何图形的关系;②几何图形的变换;③几何图形的表示;④几何图形的度量。
同法,我们得到了初等数学体系中的一系列概念,以及概念与概念之间的关系。
4) 定义类和类的等级关系。
概念间显然是具有等级关系的,这是概念的固有属性,但在应用中,概念的等级关系可以有多种表达,如有理数概念的关系可以有以下两种表达:
因此,可以从本体创建目标出发,选择适合资源推荐的等级关系是合适的。三角形是多边形的一种,它属于多边形,但三角形是初中数学中很重要的一种图形,故三角形直接隶属于几何图形,便于检索和资源推送。我们通过跟专家讨论,评价,最终确定了几何图形的层次关系,如图2所示:
5) 定义类的属性。类的属性描述的是类与类之间的关系(这里的类就是上述提到的概念),在提取概念的过程中已经梳理出概念与概念的关系,在这只需要形式化描述即可。在初等数学知识本体模块中,除了各层次之间的父子关系代表属于关系外,在底层的知识点存在大量逻辑关系。由于知识点是知识组织的最基本单位,这些关系也将会成为检索的基本依据。同时这些逻辑关系也可以映射到本体概念中,从而演化为初等数学领域本体中推理的规则。本文设计使用了以下四种知识点之间的关系。
①学习顺序关系:也可以称为学习依赖关系。即表示学习过程中知识点的前后依赖关系。若在学习知识点A之后才能学习知识点B,则称A为B的前序知识点,标识为B hasPreKA,同时B为A的后序知识点,标识为A hasPostK B。如果学习完知识点A以后就可以直接学习知识点B,则A为B的直接前序知识点,标识为B hasDirectPreKA A,B为A的直接后序知识点,标识为A hasDirectPostK B。例如,数学中知识点“有理数的认识”后序知识点有“有理数的运算”、“整式的运算”,其中直接后序知识点是“有理数的运算”。
②参考关系:若知识点A和B不存在学习顺序关系,但因为学习知识点A后能促进对知识点B的理解,则称知识点A和B存在参考关系,标识为A hasReference B。参考关系满足自反性和传递性,若有A hasReference B,B hasReference C,则有AhasReference C。例如,知识点“因式分解”和知识点“解二元一次方程”存在参考关系。
③蕴含关系:如果知识点只是概念上的相互包含,并不存在学习顺序关系和参考关系,则说明为蕴含关系。知识点A直接蕴含知识点B,记为A hasDirectPart B(或B isDirectPartOf A)。蕴含关系满足传递性。例如,知识点“方程组的求解”蕴含知识点“一元二次方程求解”和知识点“二元一次方程求解”。
④兄弟关系:如果多个知识点A、B都同时蕴含于同一个父知识点,则称知识点A、B有兄弟关系,记为A hasSiblingB,也可以记为B hasSibling A,兄弟关系满足自反性和传递性。例如,知识点“方程组的求解”蕴含知识点“一元二次方程求解”和知识点“二元一次方程求解”,则知识点“一元二次方程求解”和知识点“二元一次方程求解”为兄弟关系。hasSibling关系可以根据推理得到,推理规则描述为如果x 是y的父节点,x也是z的父节点,则y和z是兄弟关系。推理规则表达如下 hasDirectPart(?x, ?y), hasDirectPart(?x, ?z) ->isSiblingof(?y, ?z)
6) 定义属性的分面。概念需要分层,属性也需要分面。如A直接蕴含知识点B,B直接蕴含知识点C,则A蕴含知识点C。设置hasPart表示蕴含关系,hasDirectPart属于hasPart关系,但表示直接蕴含关系。
7) 创建实例
一个实例可以同属于多个类,实例与实例之间也可以通过对象属性关联。
2 初等数学本体构建实践
2.1 顶层本体库
初等数学本体第一级为Thing,第二级为学习阶段,教材体系版本,数学。以后本体可在第二级扩展其他学科本体。第三级数学本体,包含了本领域内的重要术语。其中知识点子类包含初中数学所有知识点,这些知识点以实例的形式存在(菱形表示)
2.2 实例关系的
在领域专家的参与下,将初一数学整式部分知识点归纳图4所示。
并用protégé建立的本体模型如图5所示。图中用不同颜色区分不同的对象属性。通过这些对象属性,建立知识点与知识点之间的关系,其中包括包含关系,学习顺序关系,参考关系,包含关系,兄弟关系等。根据领域专家的建议,为每种关系定义相应的权值,从而构成知识点间的关系权重,如下图所示。其中节点表示知识点,边表示在本体中构建的关系,边上标识的数值为权重。权重越大,表示依赖关系就越强。
3基于本体的智能分词与相关知识搜索
3.1 智能分词
基于本体的知识搜索部分输入参数为知识点,输出参数为按照权重顺序输出相关知识点。因为本体提供了一组通用的公认的术语和概念来描述某个领域,因此用它来对查询字段进行智能分词是可行的。如搜索“三角形的边角关系”,则通过本体概念的比对,发现,“三角形”是本体中包含在“几何图形”中的概念,“边角关系”是本体中包含在“关系”中的概念,“三角形边角关系”是“三角形”和“边角关系”概念下的知识点。该知识点下的资源就是相关度最高的资源。同时,三角形概念的知识点还有“三角形内角和定理”,“勾股定理”,“三角形的分类”等知识点,边角关系概念下也就“三角形边角关系”,“多边形的内角和定理”“多边形的外角和定理”等知识点,这些知识点下的资源相关度次之,三角形又分为等腰三角形,直角三角形等概念,等腰三角形下有“等腰三角形的判定”知识点,直角三角形下有“勾股定理”知识点。这些知识点下的资源相关度更低。至此,基于本体的智能搜索归结为计算知识点间的相关度的计算问题。
3.2相关知识搜索
基于本体的搜索引擎的基本设计思想为根据相关度排序搜索出与输入相关的知识点。可以归结为集合的运算。实现算法如下:
如果输入参数能与知识点完全匹配,则相关度最高,优先输出该知识点,并进一步利用本体推理,找到与该知识点直接相关的知识点。
如果未能完全匹配某个知识点,则在本体的基础上进行智能分词,如“AB”,则可分解为“A” “B”(A,B是本体中定义的概念),知识点推荐顺序为
① 首先找[A?B](?x)
② 然后找[A?B](?x)
③ 如果A存在子类,则推出[Ai](?x),[Ai?A]
④ 如果B存在子类,则推出[Bi](?x),[Bi?B]
⑤ 如果“ABC”只可分解为A B,C在本体中未定义,跳转到①
如果不满足以上条件,则输出结果为空。
3.3 搜索结果分析
本文将3.2节提出的基于本体的知识搜索与基于关键字的搜索进行了实验对比,在第2节中构造的本体中进行搜索,输入参数分别为“合并同类项”,“三角形”,“一元二次方程”,输出知识点的数量对比如表1所示。
从实验结果中可以看出,基于本体的知识检索能找到更多的资源,这是因为在进行检索时,系统会根据用户输入参数找到相关知识点,并对其进行关系的扩展,即使用户不指定关系,系统也会进行推理扩展搜索范围。
4 结论
个性化学习是当前教育界非常重要的研究应用方向。其中构建学科知识图谱是应用的核心和基础。本文以构建初等数学学科知识库为目的,研究了将本体模型应用于初等数学学科资源的建模问题,建立了知识点间的多种关联关系,实现了基于初等数学知识库的知识搜索应用。本文对学科领域知识库的构建的探索,为后续的基于知识库的个性化学习的行业应用提供了基础。
参考文献:
[1] 邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报,2002,38(5):730-738.
[2] NECHES R, FIKES R, FININ T, et al. Enabling technology for knowledge sharing[J].AI Magazine,1991,12(3):36-56.
[3] GRUBER T R.A translation approach to portable ontology specifications [Jl. Knowledge Acquisition, 1993,5(2):199-220.
[4] 盛东方, 孙建军. 基于语义搜索引擎的学科知识服务研究——以GoPubMed为例[J]. 图书情报知识, 2015(4):113-120.
[5] 马斌, 王金虹, 闫娟娟,等. 基于本体的智能语义检索模型設计与研究[J]. 情报科学, 2015(2):46-49.
[6] 齐云飞, 赵宇翔, 朱庆华. 基于BIBFRAME的数字图书馆语义搜索框架研究[J]. 图书与情报, 2017(1):74-81.