论文部分内容阅读
摘 要:近几年来,大学生毕业论文抄袭现象较为严重,通过组织学生参加设计论文抄袭识别系统实践,即可人工智能识别出抄袭的论文,又能提高学生的实践能力。文章通过整理分析计算机学院现存的大量论文资料,设计了符合专业特征的论文抄袭识别系统,用一定数量的论文进行了系统检验,识别的结论正确。
关键词:论文抄袭 面向对象 特征选择 相似度计算
中图分类号:G645 文献标识码:A
文章编号:1004-4914(2014)01-263-03
引言
近年来,部分计算机学院大学毕业论文中总会出现全部或部分抄袭他人论文的现象。受我国大学生就业压力的影响,部分大四毕业生于毕业设计期间在外实习工作,这部分学生的毕业设计活动指导教师不好控制,容易出现抄袭的毕业设计论文。毕业生指导教师根据学校制度,以开题答辩、中期检查和毕业答辩形式指导、检查和监督学生的设计,在整个设计期间指导教师负责任地和毕业生保持紧密的联系,但以目前的工作方式并不能阻挡抄袭行为上升势头。
受经济利益驱使,网络上出现贩卖计算机专业毕业设计论文的网站,这使毕业生花钱能轻易获得论文。学校制定严格的惩处措施处理毕业论文抄袭的学生,指导教师只接触少量毕业生论文,因此发现论文抄袭的几率不高,大部分违纪学生还是逃脱了惩罚。
我们针对计算机专业,利用实验室设备组织了学生设计抄袭论文识别实验。教师提出论文相似性计算方法和编制实验方案,学生在理解论文相似性算法后,按照实验方案做信息分析和编写软件,并将完成的作品发布在网络上,初步使用在本院的毕业设计论文抄袭检查中。该实验一定程度上制约了学生论文抄袭行为,并激发了学习兴趣、提高了学生动手能力。
一、论文相似性计算
相似的文本具有相似的关键词或相对词频,因此可以基于关键词向量或关键词相对词频向量来计算一组文本的相似度。文本与词的相关矩阵如图1所示,其中表示第i篇文本与第j个词的相关程度,取值范围为[0,1]。相关矩阵中的行描述一篇文本的特征,称之为文本特征向量,列表示每个特征项与文献集的相关程度。
文本相似性算法有多种,但考虑到本校学生的接受能力,算法选择《数据挖掘》课程中教授的余弦算法。
利用文本与词的相关矩阵可以通过分析文本之间的相关性。相关性的大小可以用相关系数S来度量,第i篇文本与第j篇文本的相关系数可以表示为Sij。
文档向量之间的关系用余弦法表示为:
S■=■
二、设计方案
学院共有3台供教学实验用的SUN品牌服务器和四个计算机实验室,在教务科存储有历年学生提交的毕业设计论文光盘(估计有11000张左右),每个实验室有学生实验用的计算机50台左右,均网络连接。从实际情况出发,实验按如下四个阶段进行:
1.建设网络平台。四个计算机实验室通过交换机级联能互相访问,其中的信息控制实验室有一条专用线路与学校网络信息中心的主路由器连接,理论上此链路能到达全校网络上开放的每个计算机。3台SUN品牌服务器中,2台作为应用服务器,1台作为数据库服务器。实验室内计算机实验室网络连接拓扑结构如图2。
应用服务器1安装Windows Server2003操作系统+IIS服务,应用服务器2安装linux操作系统+Tomcat服务,数据库服务器安装Windows Server2003操作系统+SQL Server数据库。
2.建论文信息库。如果用常用的汉语词典的词表示文本特征的词汇,则因为词汇数量大,造成相应词频矩阵的维度过高、信息处理的效率低。为此首先应建立能表示计算机专业毕业论文特征的低维词汇库。初步从大量论文中提取2000个左右的计算机专业词汇库,利用编制的计算机专业词汇库建立论文的特征向量矩阵,即建立教务科存储的光盘中每篇论文的特征向量矩阵,存储到已建好的数据库服务器中。
3.开发应用软件。应用服务器1中的应用程序用asp.net开发,应用服务器2中的信息处理应用Jsp+Ajax开发。软件开发采用面向对象方法,系统中完成一定功能的核心代码asp.net中封装为Activex组件,java环境中封装为类库,使用CSS美化页面。
微软公司提供了office产品外部访问的com接口。C++访问接口主要代码如下:
CoInitialize(NULL);//com环境初始化
Application wordApp;//word实例
Documents wordDocs;//所有文档
_Document wordDoc;//一个文档
Range aRange;//辑对象
….
docs=wordApp.GetDocuments();
doc=docs.Open(COleVariant(filename...),…);
aRange=doc.Range(vOpt,vOpt);
string str(aRange.GetText());//读取文本内容
….
教师用c++开发工具设计了获取word文件中文本的COM组件,即为学生开发的软件提供访问word文档的接口。
学生开发web应用软件实现如下功能:①获取word文件中文本,根据计算机专业词汇集合建立论文特征向量矩阵,将向量矩阵存入到paper数据库中;②假设有n个论文,应用余弦算法后台计算n个论文之间的相似度,得到n×n的数据表格存入paper数据库中;③从paper数据库中排序读取相似度表格,根据相似度识别出抄袭的论文。
三、实验
从学院各班级中选拔出优秀学生10名,按上述的设计方案进行实验。 1.网络环境搭建。首先在实验室中三台服务器中分别安装操作系统和数据库,并配置相应Web服务,新建名为paper的数据库。经过测试检查确认实验室网络运行正常。
2.信息分析。从教务科调出有代表性的100篇电子版毕业论文,每个学生分配10篇论文,安排他们从各自论文集中挖掘出2000个计算机专业词汇,按规定格式保存在Excel文件中。教师对收集的Excel文件中词汇集进行比对筛选,最终选出2015个计算机专业词汇,并将这2015个词汇导入到已建好的paper数据库中。
3.软件开发。5个学生一组用asp.net开发运行在IIS服务环境下的信息处理系统,其他5个学生用java开发运行在tomcat服务环境下的应用。经过35天开发,学生开发的应用软件在服务器调试运行。两组学生使用了一致的算法,将100篇论文进行了比对,得出论文之间相似度矩阵,将结论以行列100×100关系型数据表格形式显示。对数据按相似度排序,有2篇论文之间的明显相似度数值大,相似度为0.891,可认为是抄袭的论文。经人工判断,2篇论文内容大部分相似,计算机自动判断结论正确。
四、改进系统
虽然已完成的论文抄袭识别系统能初步满足要求,但实际应用中还需要改进。主要改进的方面有:提炼计算机专业词库;提高算法精度;加快识别速度。
1.提炼计算机专业词库。编制的计算机专业词库没有经过实践的检验,需要在学院保存11000篇论文进行识别过程中,进一步迭代整理词库,使之能精确反映计算机专业(下转第267页)(上接第264页)论文特征。
2.提高算法精度。没有考虑词的权重,也没考虑词与词之间的依赖性,在一定程度上影响了精确度,需要改进算法。
3.加快识别速度。由于在论文相似性比对过程中,处理的信息量巨大,仅依靠实验室中两台服务器处理,运行时间慢长、效率低。计划将实验室中计算机(大约200台)参与到分布式计算中,期待提高论文相似度计算速度。
五、结束语
互联网上提供的大量计算机专业论文资料,使毕业生能轻易抄袭他人论文。目前仅靠学校严格的管理手段和指导教师的认真负责并不能完全杜绝论文抄袭现象,而利用计算机技术人工智能识别论文抄袭,在技术上高效地打消了毕业生侥幸心理。
组织学生实现的论文抄袭识别系统实验作品,经进一步改进后可以实际使用在计算机教学管理工作中。通过本项目实验活动,提高了学生的网络、程序开发、信息整理等方面的实践能力,同时也教育了大学生努力学习、拒绝抄袭。
参考文献:
[1] 于守健,夏小玲,乐嘉锦.基于语义描述的分布式Web服务发布与发现[J].计算机工程,2007
[2] 于守健,朱勤,乐嘉锦.一种基于分布式哈希表的Web服务目录系统[J].计算机工程,2007
[3] 李晓晖等.基于Oracle的文献资料库全文检索技术[J].成都信息工程学院学报,2003
[4] 闵小玲.Web应用系统设计的JSP技术方法[J].黄石理工学院学报,2005
[5] 陈治纲,何丕廉,孙越恒.基于向量空间模型的文本分类系统的研究与实现.中文信息学报,2005
[6] 王秀娟.文本检索中若干问题的研究[D].北京:北京邮电大学,2006
[7] 刘群,李素建.基于“知网”的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会,2002
[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289
[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8
[10] 刘群,张华平,张浩.计算所汉语词性标记集Version3.0[Z].2004
[11] Roger Levy and Christopher D. Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics [C].200
[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[ A ]. In::proceedings of the Second ChineseLanguage Processing Workshop,ACL [C],2000
[13] 张浩,刘群,白硕等.结构上下文相关的概率句法分析[A].第一届学生计算语言学研讨会论文集[C].北京大学,2002
[14] Zhengping Jiang.Statistical Chinese parsing [ Z]. Honours thesis, 2004, National University of Singapore
[15] Michael Conllins.Head-Driven Statistical Models for Natural Language Parsing [ D ].University of Pennsylvania,1999
(作者单位:黑龙江科技大学计算机学院 黑龙江哈尔滨 150027)
(责编:吕尚)
关键词:论文抄袭 面向对象 特征选择 相似度计算
中图分类号:G645 文献标识码:A
文章编号:1004-4914(2014)01-263-03
引言
近年来,部分计算机学院大学毕业论文中总会出现全部或部分抄袭他人论文的现象。受我国大学生就业压力的影响,部分大四毕业生于毕业设计期间在外实习工作,这部分学生的毕业设计活动指导教师不好控制,容易出现抄袭的毕业设计论文。毕业生指导教师根据学校制度,以开题答辩、中期检查和毕业答辩形式指导、检查和监督学生的设计,在整个设计期间指导教师负责任地和毕业生保持紧密的联系,但以目前的工作方式并不能阻挡抄袭行为上升势头。
受经济利益驱使,网络上出现贩卖计算机专业毕业设计论文的网站,这使毕业生花钱能轻易获得论文。学校制定严格的惩处措施处理毕业论文抄袭的学生,指导教师只接触少量毕业生论文,因此发现论文抄袭的几率不高,大部分违纪学生还是逃脱了惩罚。
我们针对计算机专业,利用实验室设备组织了学生设计抄袭论文识别实验。教师提出论文相似性计算方法和编制实验方案,学生在理解论文相似性算法后,按照实验方案做信息分析和编写软件,并将完成的作品发布在网络上,初步使用在本院的毕业设计论文抄袭检查中。该实验一定程度上制约了学生论文抄袭行为,并激发了学习兴趣、提高了学生动手能力。
一、论文相似性计算
相似的文本具有相似的关键词或相对词频,因此可以基于关键词向量或关键词相对词频向量来计算一组文本的相似度。文本与词的相关矩阵如图1所示,其中表示第i篇文本与第j个词的相关程度,取值范围为[0,1]。相关矩阵中的行描述一篇文本的特征,称之为文本特征向量,列表示每个特征项与文献集的相关程度。
文本相似性算法有多种,但考虑到本校学生的接受能力,算法选择《数据挖掘》课程中教授的余弦算法。
利用文本与词的相关矩阵可以通过分析文本之间的相关性。相关性的大小可以用相关系数S来度量,第i篇文本与第j篇文本的相关系数可以表示为Sij。
文档向量之间的关系用余弦法表示为:
S■=■
二、设计方案
学院共有3台供教学实验用的SUN品牌服务器和四个计算机实验室,在教务科存储有历年学生提交的毕业设计论文光盘(估计有11000张左右),每个实验室有学生实验用的计算机50台左右,均网络连接。从实际情况出发,实验按如下四个阶段进行:
1.建设网络平台。四个计算机实验室通过交换机级联能互相访问,其中的信息控制实验室有一条专用线路与学校网络信息中心的主路由器连接,理论上此链路能到达全校网络上开放的每个计算机。3台SUN品牌服务器中,2台作为应用服务器,1台作为数据库服务器。实验室内计算机实验室网络连接拓扑结构如图2。
应用服务器1安装Windows Server2003操作系统+IIS服务,应用服务器2安装linux操作系统+Tomcat服务,数据库服务器安装Windows Server2003操作系统+SQL Server数据库。
2.建论文信息库。如果用常用的汉语词典的词表示文本特征的词汇,则因为词汇数量大,造成相应词频矩阵的维度过高、信息处理的效率低。为此首先应建立能表示计算机专业毕业论文特征的低维词汇库。初步从大量论文中提取2000个左右的计算机专业词汇库,利用编制的计算机专业词汇库建立论文的特征向量矩阵,即建立教务科存储的光盘中每篇论文的特征向量矩阵,存储到已建好的数据库服务器中。
3.开发应用软件。应用服务器1中的应用程序用asp.net开发,应用服务器2中的信息处理应用Jsp+Ajax开发。软件开发采用面向对象方法,系统中完成一定功能的核心代码asp.net中封装为Activex组件,java环境中封装为类库,使用CSS美化页面。
微软公司提供了office产品外部访问的com接口。C++访问接口主要代码如下:
CoInitialize(NULL);//com环境初始化
Application wordApp;//word实例
Documents wordDocs;//所有文档
_Document wordDoc;//一个文档
Range aRange;//辑对象
….
docs=wordApp.GetDocuments();
doc=docs.Open(COleVariant(filename...),…);
aRange=doc.Range(vOpt,vOpt);
string str(aRange.GetText());//读取文本内容
….
教师用c++开发工具设计了获取word文件中文本的COM组件,即为学生开发的软件提供访问word文档的接口。
学生开发web应用软件实现如下功能:①获取word文件中文本,根据计算机专业词汇集合建立论文特征向量矩阵,将向量矩阵存入到paper数据库中;②假设有n个论文,应用余弦算法后台计算n个论文之间的相似度,得到n×n的数据表格存入paper数据库中;③从paper数据库中排序读取相似度表格,根据相似度识别出抄袭的论文。
三、实验
从学院各班级中选拔出优秀学生10名,按上述的设计方案进行实验。 1.网络环境搭建。首先在实验室中三台服务器中分别安装操作系统和数据库,并配置相应Web服务,新建名为paper的数据库。经过测试检查确认实验室网络运行正常。
2.信息分析。从教务科调出有代表性的100篇电子版毕业论文,每个学生分配10篇论文,安排他们从各自论文集中挖掘出2000个计算机专业词汇,按规定格式保存在Excel文件中。教师对收集的Excel文件中词汇集进行比对筛选,最终选出2015个计算机专业词汇,并将这2015个词汇导入到已建好的paper数据库中。
3.软件开发。5个学生一组用asp.net开发运行在IIS服务环境下的信息处理系统,其他5个学生用java开发运行在tomcat服务环境下的应用。经过35天开发,学生开发的应用软件在服务器调试运行。两组学生使用了一致的算法,将100篇论文进行了比对,得出论文之间相似度矩阵,将结论以行列100×100关系型数据表格形式显示。对数据按相似度排序,有2篇论文之间的明显相似度数值大,相似度为0.891,可认为是抄袭的论文。经人工判断,2篇论文内容大部分相似,计算机自动判断结论正确。
四、改进系统
虽然已完成的论文抄袭识别系统能初步满足要求,但实际应用中还需要改进。主要改进的方面有:提炼计算机专业词库;提高算法精度;加快识别速度。
1.提炼计算机专业词库。编制的计算机专业词库没有经过实践的检验,需要在学院保存11000篇论文进行识别过程中,进一步迭代整理词库,使之能精确反映计算机专业(下转第267页)(上接第264页)论文特征。
2.提高算法精度。没有考虑词的权重,也没考虑词与词之间的依赖性,在一定程度上影响了精确度,需要改进算法。
3.加快识别速度。由于在论文相似性比对过程中,处理的信息量巨大,仅依靠实验室中两台服务器处理,运行时间慢长、效率低。计划将实验室中计算机(大约200台)参与到分布式计算中,期待提高论文相似度计算速度。
五、结束语
互联网上提供的大量计算机专业论文资料,使毕业生能轻易抄袭他人论文。目前仅靠学校严格的管理手段和指导教师的认真负责并不能完全杜绝论文抄袭现象,而利用计算机技术人工智能识别论文抄袭,在技术上高效地打消了毕业生侥幸心理。
组织学生实现的论文抄袭识别系统实验作品,经进一步改进后可以实际使用在计算机教学管理工作中。通过本项目实验活动,提高了学生的网络、程序开发、信息整理等方面的实践能力,同时也教育了大学生努力学习、拒绝抄袭。
参考文献:
[1] 于守健,夏小玲,乐嘉锦.基于语义描述的分布式Web服务发布与发现[J].计算机工程,2007
[2] 于守健,朱勤,乐嘉锦.一种基于分布式哈希表的Web服务目录系统[J].计算机工程,2007
[3] 李晓晖等.基于Oracle的文献资料库全文检索技术[J].成都信息工程学院学报,2003
[4] 闵小玲.Web应用系统设计的JSP技术方法[J].黄石理工学院学报,2005
[5] 陈治纲,何丕廉,孙越恒.基于向量空间模型的文本分类系统的研究与实现.中文信息学报,2005
[6] 王秀娟.文本检索中若干问题的研究[D].北京:北京邮电大学,2006
[7] 刘群,李素建.基于“知网”的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会,2002
[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289
[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8
[10] 刘群,张华平,张浩.计算所汉语词性标记集Version3.0[Z].2004
[11] Roger Levy and Christopher D. Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics [C].200
[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[ A ]. In::proceedings of the Second ChineseLanguage Processing Workshop,ACL [C],2000
[13] 张浩,刘群,白硕等.结构上下文相关的概率句法分析[A].第一届学生计算语言学研讨会论文集[C].北京大学,2002
[14] Zhengping Jiang.Statistical Chinese parsing [ Z]. Honours thesis, 2004, National University of Singapore
[15] Michael Conllins.Head-Driven Statistical Models for Natural Language Parsing [ D ].University of Pennsylvania,1999
(作者单位:黑龙江科技大学计算机学院 黑龙江哈尔滨 150027)
(责编:吕尚)