论文部分内容阅读
摘 要:为了向E-learning环境中的学习者提供个性化的学习服务,本文基于模糊本体来描述用户的学习偏好和认知状态,利用E-learning推荐系统提供个性化的学习内容。模糊本体是为了解决不精确和不确定性信息在语义网上的重用和共享,对领域本体进行的扩展,用户偏好描述用户兴趣、爱好的载体和手段。实验表明自动获取的模糊本体能很好地描述用户偏好,这种方法在信息检索和知识推荐方面是有用的,值得进一步研究。
关键词:模糊本体;用户偏好;学习对象;推荐
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2017)03-0074-04
一、引言
由于科学技术的飞速发展,特别是网络技术的提高以及各种教学工具的应用,E-learning已经成为一种重要的教育教学的方法。E-learning是指主要通过网络进行的学习与教学活动,充分利用现代信息技术所提供的全新沟通机制与丰富的学习资源,实现一种全新学习的方式。[1] E-learning具有传统教学方式无可比拟的优势,给教师和学生提供一个全新的学习教学模式。在当前的环境下,如何利用E-learning推荐系统主动和学习者进行信息交互,分析学习者的个性需求,给他们提供感兴趣的学习内容,已经成为一个研究的热点问题。
User profile能够体现用户的偏好信息,是用户兴趣的描述文件,存储用户偏好的数据及其结构。User profile可以用语义网来存储信息,表达用户的喜好,促进信息的存储和检索过程,而语义网利用形式化本体来创建机器可识别的数据,本体在处理机器可识别的描述信息方面是非常优秀的,但在现实世界中本体的形式化概念在处理一般领域中的不精确、不确定和模糊的信息时就无能为力了。[2]为了能描述不精确、不确定和模糊信息引入模糊概念和模糊关系,把模糊理论扩展到本体上,形成模糊本体。模糊本体能够处理模糊知识,能描述和检索文本和多媒体对象中模糊信息。[3]
本文提出一种基于模糊本体的user profile来提高E-learning推薦系统的教学活动。主要目的是提高检索、分类和管理学习对象的性能,利用模糊逻辑来定义、执行和校验自动构建基于user profile模糊本体的过程,并把它应用在推荐系统中。
二、模糊本体的构建
本体是共享概念模型的明确的形式化规范说明。[4]本体构建(又称本体学习)过程是对概念和概念间的关系组织。现实世界中信息的不精确和不确定,引入模糊逻辑对本体进行了模糊扩展,提出了能够表示模糊知识的模糊本体,这主要有两个优点:第一,通过本体提高了概念的形式化描述;第二,帮助描述和处理在许多应用领域里的模糊信息。自动化模糊本体的构建在没有人为参与的情况下从数据源中抽取有用的信息。
Nikravesh[5]提出了一种基于概念和web数据库的智能决策分析系统模型,利用该模型可以准确检索到相关信息。该模式采用基于术语相似度函数的概念潜在语义索引技术由文本文档集来自动构建本体。Calegari等人[6]描述了一种方法利用模糊本体提高语义文档的检索性能,阐述了基于模糊概念网络的信息检索算法。本文主要是自动化构建模糊本体,通过结合文本挖掘和计算机技术抽取更多的有关用户偏好的描述信息来提高自动构建模糊本体的过程。
三、基于模糊user profile的推荐系统
根据Burke[7]的定义,推荐系统输出个性化的推荐内容,在可选空间中给用户提供感兴趣的个性化的有用的对象以便选择。本节主要介绍基于模糊本体的user profile的组成部件和自动构建过程。User Profile是用户兴趣的描述文件,是用户个性化需求的体现,由相关学习对象组成。
1.模糊user profile
在E-learning背景下利用学习对象来描述user profile,该方法中user profile由两个组成元素来描述用户的偏好,表示为U(ζ, FO),其中ζ是描述用户偏好的概念集,FO是对应偏好的概念集的模糊本体。ζ集是一个概念ci的集合,wi对应概念的权重,来描述用户的偏好程度,如公式(1)所示。
该方法量化每个概念在学习对象集合里的权重:
(1)学习对象d中每个概念ci的权重是一个模糊值。首先根据FIS-CRM[8]模型(fis-crm(ci,d))计算每个概念基本权重值,其次根据这个概念在用户文档中的同义词和出现频率重新调整权重值。
(2)如果一个概念比其他概念在用户文档出现更加频繁,就认为这个概念和user profile相关性高,也有例外情况。为了获得这个相关度,必须考虑user profile中的学习对象所包含的每个概念的权重以及在学习对象中出现的频率。概念ci在user profile u里的权重wu
i用公式(2)计算:
Wu
i=wij×
1 ×Ln 1(2)
其中wij是利用FIS-CRM模型计算出来概念ci在学习对象dj中的相关度,docs(ci,u)是user profile里出现概念ci的文件数目,|D|是user profile中学习对象的总数目, |U|是在E-learning环境下user profile的总数,U(ci)表示概念ci具有确定隶属度的user profile的数目。
计算出来概念的权重,就可以确定所有概念之间相关性分布,标准化权重值应该分布在[0,1]之间。只有概念具有足够大的权重(w>0.5)才认为对提高E-learning的学习活动有用。
模糊本体是一个从学习对象抽取的概念间的矢量网络。因此,一个模糊本体可看成是有向图的集合,该有向图的每一个节点代表一个概念,边表示概念之间的联系。 2.建立和更新过程
自动构建模糊本体和模糊user profile的方法由数据处理、发现和重新描述用户的偏好两个阶段组成。这个过程又可以分为下列步骤:语言预处理、术语索引(也称本体预处理)、user profile构建和user profile更新过程。
(1)语言预处理。这个阶段的主要目的是以个体术语的形式从与每个用户有关的学习对象中抽取文本信息。首先,对不同形式的文档进行转换处理;其次,把所有非文本信息,如数字、日期和标点符号从文档(词法分析)中剔除;最后,停用词表和词干提取这两种技术用来减少词汇数量,使描述的文本具有更丰富的含义。[9]
(2)术语索引。本阶段主要利用上阶段产生的所有有关术语的信息构建检索结构,也称预处理本体。预处理本体包含下面的术语特征——术语ID和出现这个术语的学习对象特性列表。由于每个学习对象都包含属性ID——最频繁出现的术语数和术语在学习对象中的位置。每个术语的位置由一个二元组表示(p,s),其中s表示术语位于的章节或者段落,p表示术语在相应部分的索引。
(3)User profile的构建。构建部件ζ和FO时利用预处理本体作为资源。首先是利用fis-crm(ci d)计算权值,这个权值是构建概念集ζ和描述模糊本体网络图的关键来源。模糊本体包含有向图形式描述相关度,本体也可以用像OWL[10]的语义标记语言来描述。
(4)User profile更新过程。当由用户选择或创建新的学习对象时允许新知识加入到user profile里。这个过程的第一步是为新的学习对象进行语言预处理和术语建立索引。接着重新计算参数,概念之间的相关度和更新后的user profile里每个概念的相关度。
四、E-learning推荐系统实例
这部分主要对系统进行评估,推荐系统主要是提供给用户有用和有趣的学习对象。在评估这个系统方面主要的任务是利用存储在学习对象库中的学习对象来构建user profile并进行评估。
1.实验
实验在MACE(Metadata for Architectural Contents in Europe)中进行,这个系统在领域本体构建方面支持以开放形式获取学习资源,特别是在高等教育方面。[11] MACE的基本部件能够分享和重用的对象,包括存储资源索引和元数据的知识库、在异构资源库网络上能支持透明检索的整合搜索引擎、整合其他资源、为网络用户查找和恢复功能的可视化的探测仪等。
实验中参与者必须上传多于20个基于英文pdf文件到MACE知识库中作为学习对象,因为文献的数量足够多才能建立好的user profile。一组大约1800个学习对象是由11个MACE用户利用MACE的简单查询接口(Simple Query Interface, SQI)收集而来。SQI[12]提供每个用户之间的标准化交流,能实现联合查询。每个被选的学习对象都是从pdf文档抽取的文本内容并由此生成一个有关用户文档的集合。这个文档集合被分成两个部分,包含产生用户特征部分和测试推荐系统部分,每个用户就是一个学习对象的贡献者。
2.本体评估
利用上述方法得到每个用户的具有权重的术语集和模糊本体,这些术语集和描述用户特征本体集对学习对象的基本语义进行描述。首先,比较产生本体的所有关系,这些关系是从WordNet中抽取的四种语义关系——同义词、同位词、下位词和上位词。第二步用结构化类比和在概念网络中定义的相似度关系。用Precision和Recall来进行评价,Precision是指一个被选中的元素相关性概率,Recall表示一个相关的元素被选中的概率,F 测试是Precision和Recall之间的调和平均数,计算以公式(3)、(4)、(5)来确定系统的性能。[13]
Precision=(3)
Recall=(4)
F-Measure=(5)
实验结果Recall和Precision都在1%到2%之间。因为用户本体由无分类的模糊关系和规则组成,这规则是句法和分类等级。另外,由于这些规则由大量的信息组成,故不能进行深层次的分析。而用戶本体包含用户基本特征,尽力描述自己的特定的域。
3.推荐系统的评估
利用实验来验证第4章提出的推荐系统的Precision、Recall和F测试,本文中采用本体评价标准,这个过程其实是把一个本体作为标准和另一个本体进行比较的过程。[14]表1描述各种符号所代表的含义。
实验选取了11个用户,收集到504个不同领域的学习对象,是利用描述的MACE系统抽取的。数据集被分为训练集和测试集,11个user profile利用训练集的329个学习对象建立,测试集包含剩余的175个学习对象。比较系统提供的推荐内容和从元数据(如果用户是学习对象的贡献者,这个学习对象就推荐给这个用户)抽取的内容,获得相关的Precision、Recall和F值。所有用户的实验数据如表2所示,实验结果如表3所示。平均的Precision、Recall和F值分别是87.7%、85.8%和86.4%,显示了本文提出的系统的良好性能,表明提出的系统具有灵活性,能自动产生基于user profile提供的良好的推荐内容。
五、结论
模糊本体的灵活性支持广泛的信息检索和过滤问题,本文提出了一种利用模糊本体描述user profile的方法,该方法可以有效地提高E-learning的学习行为,利用推荐系统提供用户感兴趣的学习对象。提出的user profile结合一个相关的概念集和定义全面描述用户喜好的模糊本体,包含一个用户选择的或者创建的学习对象产生user profile的过程。实验是在MACE项目上运行,结果显示提出的系统在术语的Precision和Recall方面是合理的有效的。 进一步的研究任务是要提高user profile的质量,利用修剪过程避免不相关的概念提供给用户,要考虑由用户提供的反馈信息,利用一些混合筛选技术,增加更详细的相关性实验。
参考文献:
[1]何克抗.一场深刻的教育革命:E-learning与高等学校的教学改革[J].现代远程教育研究,2002(3):13-20.
[2]陈冬玲,王大玲,于戈.支持个性化检索的 User Profile 研究概述[J].小型微型计算机系统,2008(10):1903-1907.
[3]Zhai J, Shen L, Zhou Z, et al. Fuzzy ontology model for knowledge management[C].International conference on intelligent systems and knowledge engineering (ISKE 2007), Chengdu, China. Fuzzy ontology representation model. 2007.
[4]戴维民.语义网信息组织技术与方法[M].上海:学林出版社,2008.
[5]Nikravesh M. Concept-based search and questionnaire systems[M].Forging New Frontiers: Fuzzy Pioneers I. Springer Berlin Heidelberg, 2007:193-215.
[6]Calegari S, Sanchez E. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval[J].Journal of the American Society for Information Science and Technology, 2008,59(13):2171-2185.
[7]Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction, 2002,12(4):331-370.
[8]Olivas J A, Garcés P J, Romero F P. An application of the FIS-CRM model to the FISS metasearcher: Using fuzzy synonymy and fuzzy generality for representing concepts in documents[J].International journal of approximate reasoning,2003, 34(2):201-219.
[9]Hull D A. Stemming algorithms: a case study for detailed evaluation[J].JASIS, 1996,47(1):70-84.
[10]McGuinness D L, Van Harmelen F. OWL web ontology language overview[J].W3C recommendation,2004,10(2004-03):10.
[11]Wolpers M, Memmel M, Klerkx J, et al. Bridging repositories to form the MACE experience[J].New Review of Information Networking, 2009,14(2):102-116.
[12]Van Assche F, Duval E, Massart D, et al. Spinning interoperable applications for teaching
关键词:模糊本体;用户偏好;学习对象;推荐
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2017)03-0074-04
一、引言
由于科学技术的飞速发展,特别是网络技术的提高以及各种教学工具的应用,E-learning已经成为一种重要的教育教学的方法。E-learning是指主要通过网络进行的学习与教学活动,充分利用现代信息技术所提供的全新沟通机制与丰富的学习资源,实现一种全新学习的方式。[1] E-learning具有传统教学方式无可比拟的优势,给教师和学生提供一个全新的学习教学模式。在当前的环境下,如何利用E-learning推荐系统主动和学习者进行信息交互,分析学习者的个性需求,给他们提供感兴趣的学习内容,已经成为一个研究的热点问题。
User profile能够体现用户的偏好信息,是用户兴趣的描述文件,存储用户偏好的数据及其结构。User profile可以用语义网来存储信息,表达用户的喜好,促进信息的存储和检索过程,而语义网利用形式化本体来创建机器可识别的数据,本体在处理机器可识别的描述信息方面是非常优秀的,但在现实世界中本体的形式化概念在处理一般领域中的不精确、不确定和模糊的信息时就无能为力了。[2]为了能描述不精确、不确定和模糊信息引入模糊概念和模糊关系,把模糊理论扩展到本体上,形成模糊本体。模糊本体能够处理模糊知识,能描述和检索文本和多媒体对象中模糊信息。[3]
本文提出一种基于模糊本体的user profile来提高E-learning推薦系统的教学活动。主要目的是提高检索、分类和管理学习对象的性能,利用模糊逻辑来定义、执行和校验自动构建基于user profile模糊本体的过程,并把它应用在推荐系统中。
二、模糊本体的构建
本体是共享概念模型的明确的形式化规范说明。[4]本体构建(又称本体学习)过程是对概念和概念间的关系组织。现实世界中信息的不精确和不确定,引入模糊逻辑对本体进行了模糊扩展,提出了能够表示模糊知识的模糊本体,这主要有两个优点:第一,通过本体提高了概念的形式化描述;第二,帮助描述和处理在许多应用领域里的模糊信息。自动化模糊本体的构建在没有人为参与的情况下从数据源中抽取有用的信息。
Nikravesh[5]提出了一种基于概念和web数据库的智能决策分析系统模型,利用该模型可以准确检索到相关信息。该模式采用基于术语相似度函数的概念潜在语义索引技术由文本文档集来自动构建本体。Calegari等人[6]描述了一种方法利用模糊本体提高语义文档的检索性能,阐述了基于模糊概念网络的信息检索算法。本文主要是自动化构建模糊本体,通过结合文本挖掘和计算机技术抽取更多的有关用户偏好的描述信息来提高自动构建模糊本体的过程。
三、基于模糊user profile的推荐系统
根据Burke[7]的定义,推荐系统输出个性化的推荐内容,在可选空间中给用户提供感兴趣的个性化的有用的对象以便选择。本节主要介绍基于模糊本体的user profile的组成部件和自动构建过程。User Profile是用户兴趣的描述文件,是用户个性化需求的体现,由相关学习对象组成。
1.模糊user profile
在E-learning背景下利用学习对象来描述user profile,该方法中user profile由两个组成元素来描述用户的偏好,表示为U(ζ, FO),其中ζ是描述用户偏好的概念集,FO是对应偏好的概念集的模糊本体。ζ集是一个概念ci的集合,wi对应概念的权重,来描述用户的偏好程度,如公式(1)所示。
该方法量化每个概念在学习对象集合里的权重:
(1)学习对象d中每个概念ci的权重是一个模糊值。首先根据FIS-CRM[8]模型(fis-crm(ci,d))计算每个概念基本权重值,其次根据这个概念在用户文档中的同义词和出现频率重新调整权重值。
(2)如果一个概念比其他概念在用户文档出现更加频繁,就认为这个概念和user profile相关性高,也有例外情况。为了获得这个相关度,必须考虑user profile中的学习对象所包含的每个概念的权重以及在学习对象中出现的频率。概念ci在user profile u里的权重wu
i用公式(2)计算:
Wu
i=wij×
1 ×Ln 1(2)
其中wij是利用FIS-CRM模型计算出来概念ci在学习对象dj中的相关度,docs(ci,u)是user profile里出现概念ci的文件数目,|D|是user profile中学习对象的总数目, |U|是在E-learning环境下user profile的总数,U(ci)表示概念ci具有确定隶属度的user profile的数目。
计算出来概念的权重,就可以确定所有概念之间相关性分布,标准化权重值应该分布在[0,1]之间。只有概念具有足够大的权重(w>0.5)才认为对提高E-learning的学习活动有用。
模糊本体是一个从学习对象抽取的概念间的矢量网络。因此,一个模糊本体可看成是有向图的集合,该有向图的每一个节点代表一个概念,边表示概念之间的联系。 2.建立和更新过程
自动构建模糊本体和模糊user profile的方法由数据处理、发现和重新描述用户的偏好两个阶段组成。这个过程又可以分为下列步骤:语言预处理、术语索引(也称本体预处理)、user profile构建和user profile更新过程。
(1)语言预处理。这个阶段的主要目的是以个体术语的形式从与每个用户有关的学习对象中抽取文本信息。首先,对不同形式的文档进行转换处理;其次,把所有非文本信息,如数字、日期和标点符号从文档(词法分析)中剔除;最后,停用词表和词干提取这两种技术用来减少词汇数量,使描述的文本具有更丰富的含义。[9]
(2)术语索引。本阶段主要利用上阶段产生的所有有关术语的信息构建检索结构,也称预处理本体。预处理本体包含下面的术语特征——术语ID和出现这个术语的学习对象特性列表。由于每个学习对象都包含属性ID——最频繁出现的术语数和术语在学习对象中的位置。每个术语的位置由一个二元组表示(p,s),其中s表示术语位于的章节或者段落,p表示术语在相应部分的索引。
(3)User profile的构建。构建部件ζ和FO时利用预处理本体作为资源。首先是利用fis-crm(ci d)计算权值,这个权值是构建概念集ζ和描述模糊本体网络图的关键来源。模糊本体包含有向图形式描述相关度,本体也可以用像OWL[10]的语义标记语言来描述。
(4)User profile更新过程。当由用户选择或创建新的学习对象时允许新知识加入到user profile里。这个过程的第一步是为新的学习对象进行语言预处理和术语建立索引。接着重新计算参数,概念之间的相关度和更新后的user profile里每个概念的相关度。
四、E-learning推荐系统实例
这部分主要对系统进行评估,推荐系统主要是提供给用户有用和有趣的学习对象。在评估这个系统方面主要的任务是利用存储在学习对象库中的学习对象来构建user profile并进行评估。
1.实验
实验在MACE(Metadata for Architectural Contents in Europe)中进行,这个系统在领域本体构建方面支持以开放形式获取学习资源,特别是在高等教育方面。[11] MACE的基本部件能够分享和重用的对象,包括存储资源索引和元数据的知识库、在异构资源库网络上能支持透明检索的整合搜索引擎、整合其他资源、为网络用户查找和恢复功能的可视化的探测仪等。
实验中参与者必须上传多于20个基于英文pdf文件到MACE知识库中作为学习对象,因为文献的数量足够多才能建立好的user profile。一组大约1800个学习对象是由11个MACE用户利用MACE的简单查询接口(Simple Query Interface, SQI)收集而来。SQI[12]提供每个用户之间的标准化交流,能实现联合查询。每个被选的学习对象都是从pdf文档抽取的文本内容并由此生成一个有关用户文档的集合。这个文档集合被分成两个部分,包含产生用户特征部分和测试推荐系统部分,每个用户就是一个学习对象的贡献者。
2.本体评估
利用上述方法得到每个用户的具有权重的术语集和模糊本体,这些术语集和描述用户特征本体集对学习对象的基本语义进行描述。首先,比较产生本体的所有关系,这些关系是从WordNet中抽取的四种语义关系——同义词、同位词、下位词和上位词。第二步用结构化类比和在概念网络中定义的相似度关系。用Precision和Recall来进行评价,Precision是指一个被选中的元素相关性概率,Recall表示一个相关的元素被选中的概率,F 测试是Precision和Recall之间的调和平均数,计算以公式(3)、(4)、(5)来确定系统的性能。[13]
Precision=(3)
Recall=(4)
F-Measure=(5)
实验结果Recall和Precision都在1%到2%之间。因为用户本体由无分类的模糊关系和规则组成,这规则是句法和分类等级。另外,由于这些规则由大量的信息组成,故不能进行深层次的分析。而用戶本体包含用户基本特征,尽力描述自己的特定的域。
3.推荐系统的评估
利用实验来验证第4章提出的推荐系统的Precision、Recall和F测试,本文中采用本体评价标准,这个过程其实是把一个本体作为标准和另一个本体进行比较的过程。[14]表1描述各种符号所代表的含义。
实验选取了11个用户,收集到504个不同领域的学习对象,是利用描述的MACE系统抽取的。数据集被分为训练集和测试集,11个user profile利用训练集的329个学习对象建立,测试集包含剩余的175个学习对象。比较系统提供的推荐内容和从元数据(如果用户是学习对象的贡献者,这个学习对象就推荐给这个用户)抽取的内容,获得相关的Precision、Recall和F值。所有用户的实验数据如表2所示,实验结果如表3所示。平均的Precision、Recall和F值分别是87.7%、85.8%和86.4%,显示了本文提出的系统的良好性能,表明提出的系统具有灵活性,能自动产生基于user profile提供的良好的推荐内容。
五、结论
模糊本体的灵活性支持广泛的信息检索和过滤问题,本文提出了一种利用模糊本体描述user profile的方法,该方法可以有效地提高E-learning的学习行为,利用推荐系统提供用户感兴趣的学习对象。提出的user profile结合一个相关的概念集和定义全面描述用户喜好的模糊本体,包含一个用户选择的或者创建的学习对象产生user profile的过程。实验是在MACE项目上运行,结果显示提出的系统在术语的Precision和Recall方面是合理的有效的。 进一步的研究任务是要提高user profile的质量,利用修剪过程避免不相关的概念提供给用户,要考虑由用户提供的反馈信息,利用一些混合筛选技术,增加更详细的相关性实验。
参考文献:
[1]何克抗.一场深刻的教育革命:E-learning与高等学校的教学改革[J].现代远程教育研究,2002(3):13-20.
[2]陈冬玲,王大玲,于戈.支持个性化检索的 User Profile 研究概述[J].小型微型计算机系统,2008(10):1903-1907.
[3]Zhai J, Shen L, Zhou Z, et al. Fuzzy ontology model for knowledge management[C].International conference on intelligent systems and knowledge engineering (ISKE 2007), Chengdu, China. Fuzzy ontology representation model. 2007.
[4]戴维民.语义网信息组织技术与方法[M].上海:学林出版社,2008.
[5]Nikravesh M. Concept-based search and questionnaire systems[M].Forging New Frontiers: Fuzzy Pioneers I. Springer Berlin Heidelberg, 2007:193-215.
[6]Calegari S, Sanchez E. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval[J].Journal of the American Society for Information Science and Technology, 2008,59(13):2171-2185.
[7]Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction, 2002,12(4):331-370.
[8]Olivas J A, Garcés P J, Romero F P. An application of the FIS-CRM model to the FISS metasearcher: Using fuzzy synonymy and fuzzy generality for representing concepts in documents[J].International journal of approximate reasoning,2003, 34(2):201-219.
[9]Hull D A. Stemming algorithms: a case study for detailed evaluation[J].JASIS, 1996,47(1):70-84.
[10]McGuinness D L, Van Harmelen F. OWL web ontology language overview[J].W3C recommendation,2004,10(2004-03):10.
[11]Wolpers M, Memmel M, Klerkx J, et al. Bridging repositories to form the MACE experience[J].New Review of Information Networking, 2009,14(2):102-116.
[12]Van Assche F, Duval E, Massart D, et al. Spinning interoperable applications for teaching