论文部分内容阅读
摘 要:在深入分析传统纸质实验报告在实践教学中存在的诸多弊端基础上,首先提出了建设实验报告无纸化管理平台的解决方案,然后设计了平台的架构,最后重点研究了实验报告抄袭识别技术,为今后具体开发实验报告无纸化管理平台奠定了可行的技术基础。
关键词:实验报告;无纸化;抄袭识别;TF-IDF
中图分类号:TP39 文献标志码:A 文章编号:1673-8454(2013)21-0000-00
实验报告是学生通过实验过程将其实验原理、操作步骤、原始数据、测试结果分析等进行汇总的过程,通过写实验报告,学生进一步巩固了理论基础知识,提高了学生实际动手能力。[1]写实验报告是培养学生独立分析问题和解决问题的重要环节,特别是在以培养高级应用性人才的高等院校,实验报告在日常实践教学中,起到了一个非常重要的作用。
一、纸质报告存在的主要问题
目前大多数高校的实验报告还是以纸质形式为主,学校大量印刷纸质实验报告,学生在课堂上做完实验后写纸质实验报告,最后上交给教师批改。我们从事实验教师岗位多年,既扮演实验报告批改者的角色,又承担实验报告归档管理工作,我们发现目前的纸质实验报告模式,在实验报告的管理与批改中存在以下缺陷:
(1)纸质实验报告印刷,不仅浪费了学校的印刷资源,同时大量的纸质实验报告归档存放,占据了实验室本来就很窘迫的空间。
(2)纸质实验报告因为统一印刷的原因,纸质实验报告模版僵化,无法体现不同类型实验的重点。比如“验证性实验”注重的是实验结果是否符合预期,实验报告中需要重点分析实验结果。“设计性实验”注重的是实验的设计,实验报告需要重点描述设计方案与实验过程。
(3)不少学生写实验报告,照搬实验指导书或课本内容,甚至有个别学生抄袭别人的实验报告,纸质实验报告无法有效避免这个现象。
(4)纸质实验报告只能够手写完成,少数学生字迹潦草,批改实验报告的教师显得非常吃力。
(5)教师批改好纸质实验报告之后,学生无法及时的了解实验报告的批改结果与批改建议。
(6)纸质实验报告的归档工作相当复杂,需要检查每个实验课程的实验项目数与实验报告份数,然后对符合归档要求的纸质实验报告进行逐个捆绑处理并存放。
(7)纸质实验报告归档后不能够远程直接调阅,如果有上级教学主管部门要检查实验报告,实验教师需要在实验报告归档存放的仓库中查找纸质实验报告,然后提交厚重的纸质实验报告。
为了解决纸质实验报告在日常教学与管理中存在的缺陷,我们查阅了大量的国内外科技文献,对于实验报告的改革,有很多不同的解决方案。实验报告的改革多数停留在如何通过制度或教师通过教学方法来提高实验报告的质量,[2-7]没有从实验报告的管理技术上来提高学生书写实验报告的质量、教师批改实验报告以及实验报告归档管理的效率。
二、实验报告无纸化管理平台的整体架构设计
结合多年的实验教学与实验室管理工作,我们认为要提高学生书写实验报告的质量,首先要打破实验报告纸质化的传统,采用电子实验报告,通过建设一个实验报告无纸化管理平台,实现实验报告管理的功能——实验课程库管理、实验项目库管理、实验报告模板制作、实验报告模板发布、实验报告模板下载、实验报告在线填写、实验报告在线提交、实验报告防抄袭识别、实验报告在线批改、实验报告批改结果查看、实验报告导入、实验报告导出、实验报告信息统计等。实验报告无纸化平台的建设与應用,不仅可以节约学校办学资源,也可以提升实验报告的质量与效果,同时也提高了实验报告归档与管理的效率。
实验报告无纸化管理平台面对的使用对象是学生、教师、实验报告管理员三个角色,因此实验报告无纸化管理平台以角色为模块划分界限,我们设计了实验报告无纸化管理平台功能与架构,如图1所示。
三、系统核心技术与算法研究
1.核心技术分析
分析实验报告无纸化管理平台的各模块功能,按照常规的软件开发方法都是容易实现的,但是“实验报告防抄袭识别模块”是实验报告无纸化管理平台的难点,也是本平台的关键技术。此模块需要对“文本相似度的计算方法”进行研究,查阅国内外科技文献,目前对“文本相似度的计算方法”研究主要分为:词形相似度[8-9]、语义相似度[10]、句法相似度[11-12],结合本平台的实际使用情况,如果存在抄袭现象,实验报告中应该存在词形相似,“词形相似度”算法中最典型的是TF-IDF算法,因此本文采用TF-IDF算法来设计“实验报告防抄袭识别模块”。
2.抄袭识别算法设计
算法步骤:实验报告预处理→实验报告特征项选择和加权→生成向量空间模型后余弦计算。
(1)实验报告预处理
主要是进行中文分词与停用词的去除,这个步骤可以采用中科院开发的开源代码“ICTCLAS”。
(2)实验报告特征项选择和加权
通过步骤(1),得到了若干个特征关键词K{K1,K2,…,Kn},根据关键词在实验报告中出现的频次,确定关键词在实验报告中的权重W{W1,W2,…,Wn},那么实验报告D可以被表示为一个关键词加权重的集合D{K1W1,K2W2,…,KnWn},在计算中可以简化为D{W1,W2,…,Wn}。
(3)向量空间模型余弦计算
在向量空间模型中有文本之间的相似度计算、常用向量之间夹角的余弦值表示,假设有实验报告A与B,那么可以设计公式3-1来计算这个句子的相似度。
Sim(A,B)= (3-1)
其中,Wai、Wbi分别表示实验报告A和B第i个关键词的权值,1 i n。
3.实验报告相似度阈值的设计
公式3-1中的Sim(A,B)可以计算出实验报告A与B的相似度数值,那么这个数值在哪个区间判定为抄袭,哪个区间判定为不抄袭,确定一个合理的阈值在实验报告无纸化管理平台中的“防抄袭识别功能”就显得尤为重要。 阈值的确定,可以设计三个指标算法“准确率P”、“召回率R”,来判断阈值的合理性,首先给定一个实验报告训练集,里面存放U份实验报告,首先人工去逐个判断实验报告抄袭情况,确定实验报告抄袭的份数N,未抄袭的份数M,其中N M=U,然后假设给定一个初始的阈值E=0.7,用抄袭识别算法去判断这U份实验报告存在抄袭的数量为C,那么。
准确率指标算法: P= (3-2)
召回率指标算法: R= (3-3)
不断调整阈值E,可以训练返回准确率指标与召回率指标的数值,根据准确率指标与召回率指标的数值,确定一个合理的阈值,以提高实验报告无纸化管理平台中的“防抄袭识别功能”的有效性。
四、结束语
一个具备“防抄袭识别功能”的实验报告无纸化管理平台的设计与开发,是一项复杂的系统工程,不只是传统的信息系统开发,还涉及一些自然语言处理技术,因此本文虽然是实验报告无纸化管理平台设计的一个初步探索,但是整体设计了平台的架构与功能,特别是对平台的关键技术进行了深入的研究。本文的研究为实验报告无纸化管理平台的具体开发奠定了可行的技术基础,实验报告无纸化管理平台的建设,不仅可以提高学生书写实验质量,也可以提高教师批改实验报告及反馈效果,同时还可以减轻实验室工作人员对实验报告管理工作的负担。
参考文献:
[1]马铭杰.确保实验报告质量是提高实验教学效果的重要措施[J].实验室研究与探索,2004(11):64-66.
[2]李仁兴.实验报告改革的探索与实践[J].江苏技术师范学院学报,2004(2):65-69.
[3]李忠光,龚明.实验报告撰写改革尝试[J].实验科学与技术,2005(1):69-70.
[4]王俊斌,王海凤,任健,王英超,李天俊.提高实验报告质量,培养学生综合素质[J].天津农学院学报,2010(1):57-58.
[5]伍洪标,陈玲莉,冯小平,张联盟.学生实验报告改革方法的探索[J].理工高教研究,2002(5):112-113.
[6]侯淑莲,李石玉.学生实验报告中存在问题的剖析[J].华北煤炭医学院学报,2001(4):507-508.
[7]刘文冲,张海锋,季乐乐,李嘉,迟素敏,王跃民,裴建明,高峰.做好实验报告,提高生理学实验教学质量[J].山西医科大学学报(基础医学教育版),2009(3):296-298.
[8]黃承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011(5):856-864.
[9]韩敏,唐常杰,段磊,李川,巩杰.基于TF-IDF相似度的标签聚类方法[J].计算机科学与探索,2010(3):240-246.
[10]葛斌, 李芳芳,丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010(9): 29-33.
[11]李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003(12):15-17.
[12]段利国,陈俊杰.综合句法结构及语义相似度的问题推荐技术[J].计算机科学,2012(1):203-206.
(编辑:王天鹏)
关键词:实验报告;无纸化;抄袭识别;TF-IDF
中图分类号:TP39 文献标志码:A 文章编号:1673-8454(2013)21-0000-00
实验报告是学生通过实验过程将其实验原理、操作步骤、原始数据、测试结果分析等进行汇总的过程,通过写实验报告,学生进一步巩固了理论基础知识,提高了学生实际动手能力。[1]写实验报告是培养学生独立分析问题和解决问题的重要环节,特别是在以培养高级应用性人才的高等院校,实验报告在日常实践教学中,起到了一个非常重要的作用。
一、纸质报告存在的主要问题
目前大多数高校的实验报告还是以纸质形式为主,学校大量印刷纸质实验报告,学生在课堂上做完实验后写纸质实验报告,最后上交给教师批改。我们从事实验教师岗位多年,既扮演实验报告批改者的角色,又承担实验报告归档管理工作,我们发现目前的纸质实验报告模式,在实验报告的管理与批改中存在以下缺陷:
(1)纸质实验报告印刷,不仅浪费了学校的印刷资源,同时大量的纸质实验报告归档存放,占据了实验室本来就很窘迫的空间。
(2)纸质实验报告因为统一印刷的原因,纸质实验报告模版僵化,无法体现不同类型实验的重点。比如“验证性实验”注重的是实验结果是否符合预期,实验报告中需要重点分析实验结果。“设计性实验”注重的是实验的设计,实验报告需要重点描述设计方案与实验过程。
(3)不少学生写实验报告,照搬实验指导书或课本内容,甚至有个别学生抄袭别人的实验报告,纸质实验报告无法有效避免这个现象。
(4)纸质实验报告只能够手写完成,少数学生字迹潦草,批改实验报告的教师显得非常吃力。
(5)教师批改好纸质实验报告之后,学生无法及时的了解实验报告的批改结果与批改建议。
(6)纸质实验报告的归档工作相当复杂,需要检查每个实验课程的实验项目数与实验报告份数,然后对符合归档要求的纸质实验报告进行逐个捆绑处理并存放。
(7)纸质实验报告归档后不能够远程直接调阅,如果有上级教学主管部门要检查实验报告,实验教师需要在实验报告归档存放的仓库中查找纸质实验报告,然后提交厚重的纸质实验报告。
为了解决纸质实验报告在日常教学与管理中存在的缺陷,我们查阅了大量的国内外科技文献,对于实验报告的改革,有很多不同的解决方案。实验报告的改革多数停留在如何通过制度或教师通过教学方法来提高实验报告的质量,[2-7]没有从实验报告的管理技术上来提高学生书写实验报告的质量、教师批改实验报告以及实验报告归档管理的效率。
二、实验报告无纸化管理平台的整体架构设计
结合多年的实验教学与实验室管理工作,我们认为要提高学生书写实验报告的质量,首先要打破实验报告纸质化的传统,采用电子实验报告,通过建设一个实验报告无纸化管理平台,实现实验报告管理的功能——实验课程库管理、实验项目库管理、实验报告模板制作、实验报告模板发布、实验报告模板下载、实验报告在线填写、实验报告在线提交、实验报告防抄袭识别、实验报告在线批改、实验报告批改结果查看、实验报告导入、实验报告导出、实验报告信息统计等。实验报告无纸化平台的建设与應用,不仅可以节约学校办学资源,也可以提升实验报告的质量与效果,同时也提高了实验报告归档与管理的效率。
实验报告无纸化管理平台面对的使用对象是学生、教师、实验报告管理员三个角色,因此实验报告无纸化管理平台以角色为模块划分界限,我们设计了实验报告无纸化管理平台功能与架构,如图1所示。
三、系统核心技术与算法研究
1.核心技术分析
分析实验报告无纸化管理平台的各模块功能,按照常规的软件开发方法都是容易实现的,但是“实验报告防抄袭识别模块”是实验报告无纸化管理平台的难点,也是本平台的关键技术。此模块需要对“文本相似度的计算方法”进行研究,查阅国内外科技文献,目前对“文本相似度的计算方法”研究主要分为:词形相似度[8-9]、语义相似度[10]、句法相似度[11-12],结合本平台的实际使用情况,如果存在抄袭现象,实验报告中应该存在词形相似,“词形相似度”算法中最典型的是TF-IDF算法,因此本文采用TF-IDF算法来设计“实验报告防抄袭识别模块”。
2.抄袭识别算法设计
算法步骤:实验报告预处理→实验报告特征项选择和加权→生成向量空间模型后余弦计算。
(1)实验报告预处理
主要是进行中文分词与停用词的去除,这个步骤可以采用中科院开发的开源代码“ICTCLAS”。
(2)实验报告特征项选择和加权
通过步骤(1),得到了若干个特征关键词K{K1,K2,…,Kn},根据关键词在实验报告中出现的频次,确定关键词在实验报告中的权重W{W1,W2,…,Wn},那么实验报告D可以被表示为一个关键词加权重的集合D{K1W1,K2W2,…,KnWn},在计算中可以简化为D{W1,W2,…,Wn}。
(3)向量空间模型余弦计算
在向量空间模型中有文本之间的相似度计算、常用向量之间夹角的余弦值表示,假设有实验报告A与B,那么可以设计公式3-1来计算这个句子的相似度。
Sim(A,B)= (3-1)
其中,Wai、Wbi分别表示实验报告A和B第i个关键词的权值,1 i n。
3.实验报告相似度阈值的设计
公式3-1中的Sim(A,B)可以计算出实验报告A与B的相似度数值,那么这个数值在哪个区间判定为抄袭,哪个区间判定为不抄袭,确定一个合理的阈值在实验报告无纸化管理平台中的“防抄袭识别功能”就显得尤为重要。 阈值的确定,可以设计三个指标算法“准确率P”、“召回率R”,来判断阈值的合理性,首先给定一个实验报告训练集,里面存放U份实验报告,首先人工去逐个判断实验报告抄袭情况,确定实验报告抄袭的份数N,未抄袭的份数M,其中N M=U,然后假设给定一个初始的阈值E=0.7,用抄袭识别算法去判断这U份实验报告存在抄袭的数量为C,那么。
准确率指标算法: P= (3-2)
召回率指标算法: R= (3-3)
不断调整阈值E,可以训练返回准确率指标与召回率指标的数值,根据准确率指标与召回率指标的数值,确定一个合理的阈值,以提高实验报告无纸化管理平台中的“防抄袭识别功能”的有效性。
四、结束语
一个具备“防抄袭识别功能”的实验报告无纸化管理平台的设计与开发,是一项复杂的系统工程,不只是传统的信息系统开发,还涉及一些自然语言处理技术,因此本文虽然是实验报告无纸化管理平台设计的一个初步探索,但是整体设计了平台的架构与功能,特别是对平台的关键技术进行了深入的研究。本文的研究为实验报告无纸化管理平台的具体开发奠定了可行的技术基础,实验报告无纸化管理平台的建设,不仅可以提高学生书写实验质量,也可以提高教师批改实验报告及反馈效果,同时还可以减轻实验室工作人员对实验报告管理工作的负担。
参考文献:
[1]马铭杰.确保实验报告质量是提高实验教学效果的重要措施[J].实验室研究与探索,2004(11):64-66.
[2]李仁兴.实验报告改革的探索与实践[J].江苏技术师范学院学报,2004(2):65-69.
[3]李忠光,龚明.实验报告撰写改革尝试[J].实验科学与技术,2005(1):69-70.
[4]王俊斌,王海凤,任健,王英超,李天俊.提高实验报告质量,培养学生综合素质[J].天津农学院学报,2010(1):57-58.
[5]伍洪标,陈玲莉,冯小平,张联盟.学生实验报告改革方法的探索[J].理工高教研究,2002(5):112-113.
[6]侯淑莲,李石玉.学生实验报告中存在问题的剖析[J].华北煤炭医学院学报,2001(4):507-508.
[7]刘文冲,张海锋,季乐乐,李嘉,迟素敏,王跃民,裴建明,高峰.做好实验报告,提高生理学实验教学质量[J].山西医科大学学报(基础医学教育版),2009(3):296-298.
[8]黃承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011(5):856-864.
[9]韩敏,唐常杰,段磊,李川,巩杰.基于TF-IDF相似度的标签聚类方法[J].计算机科学与探索,2010(3):240-246.
[10]葛斌, 李芳芳,丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010(9): 29-33.
[11]李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003(12):15-17.
[12]段利国,陈俊杰.综合句法结构及语义相似度的问题推荐技术[J].计算机科学,2012(1):203-206.
(编辑:王天鹏)