自适应基因表达式程序设计在远程教育招生数据分析中的应用研究

来源 :中国远程教育 | 被引量 : 0次 | 上传用户:yyxgxgxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】 随着互联网技术的发展,远程教育在现代教育中起到越来越重要的作用。本文以远程教育招生数据为研究对象,提出一种自适应基因表达式程序设计算法。该算法能自适应调整算法的杂交和变异概率,从而有效避免人为设置初始参数的敏感性。算法在分析现有招生数据的基础上,预测未来几年的招生规模,有利于招生单位做出有针对性的调整,并针对我校近几年的招生数据,有效地对以往数据进行建模,预测未来的招生规模。
  【关键词】 远程教育;招生;基因表达式程序设计;建模;预测
  【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009—458x(2015)02—0067—06
  一、引言
  随着互联网技术的快速发展,远程教育也得到了快速发展,在现代教育中的作用也越来越重要[1]。作为远程教育第一个环节的招生工作,具有十分重要的作用,但竞争日趋激烈[2]。因此,对已有招生数据进行挖掘分析,建立有效的模型,可以对未来的招生形势进行预测,以提供有效的决策分析手段。
  远程教育招生人数与国家政策、教育资源、高校排名等有很大关系。招生数据是典型的时间序列数据,具有高度的非线性、不规则性和季节性等特点。针对招生数据建立有效的分析和预测模型,对未来招生形势的分析具有十分重要的作用。有鉴于此,本文以我校远程与继续教育学院近5年春秋两季的招生数据为对象,提出一种自适应基因表达式程序设计(Gene Expression Programming, GEP)算法,对已有数据进行建模,并根据所建模型预测未来的招生人数。为了避免人为设置参数对所求解问题敏感性的不足,采用自适应参数控制技术实现杂交概率和变异概率自适应控制。结果表明,该算法能建立较准确的模型,实现对未来招生形势的良好预测。
  二、相关工作
  1. 基因表达式程序设计
  葡萄牙科学家C. Ferreira于2001年提出了基因表达式程序设计算法。该算法是一种新的非线性程序设计技术,是演化算法的一种[3]。通过实验分析,C. Ferreira讨论了GEP在问题求解、时间序列预测、函数发现、分类规则、符号回归等问题中的应用。与遗传规划算法不同,在基因表达式程序设计中,个体采用具有固定长度的线性串(基因组或染色体)进行编码,并被表示成具有不同大小和形状的非线性实体(表达式树)。该算法已在多个领域取得了成功的应 用[4][5][6]。
  Zhou等研究表明,GEP能够挖掘出更精简、更有效的分类规则[7];Lopes和Weinert研究了GEP在符号回归问题中的应用,并提出了一种新的分析符号回归问题的系统:EGIPSYS[8];Zuo等利用GEP进行时间序列预测,提出了GEP-SWPM(即GEP滑动窗口法)和GEP-DEPM(即GEP常微分方程组法)两种预测方法[9],实验结果表明,两种方法在太阳黑子的预测上均取得很好的效果;黄晓冬等提出了一种基于GEP的函数关系发现方法——MEM方法,即分域表达式挖掘。该方法能处理具有一致表达式的关系和具有不同分域表达式的复杂函数关系,并论证了它具有对数数量级的复杂度[10];汪锐等利用GEP实现了多项式函数分解,提出了GPF方法。该方法能把任意多项式函数关系,按指定精度分解若干低次多项式函数的乘积[11];元昌安等在把GEP用于函数挖掘时分析了算法的收敛性,根据收敛性定理提出了残差制导进化算法RGEA,并通过对GP、GEP、RGEA算法进行比较实验,表明RGEA比前两种方法具有更好的性能[12];Cai等在预测瓦斯涌出量时,把GEP与模拟退火算法和MPI并行机制相结合,以模拟退火算法来增强算法的搜索能力,以多群体并行策略来优化算法的性能,形成了混合并行GEP算法HPGEPSA。结果表明,与传统的GP和基本GEP相比,HPGEPSA具有更好的适应性、可扩张性和更高的预测精度[13]。此外,GEP还运用到神经网络的设计[14]、仿真[15]和文本挖掘[16]中,都取得了较好的效果。
  2. 基于数据挖掘的远程教育分析
  数据挖掘(Data Mining)一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程[17]。把数据挖掘技术应用于远程教育中已受到广泛的重视[18]。王菁菁把STING聚类技术应用于远程教育系统学生分类中,取得了较好的效果[19];陶灵奴等介绍了数据挖掘技术在远程教育学生考试成绩分析上的应用和用ID3算法构造决策树的方法,分析了远程教育中成功应用数据挖掘的思路和模式[20];肖勇等使用C4.5数据挖掘算法分析过程考核中采集的数据,研究过程考核实施中存在的问题和过程考核指标的改进方向[21];程华等提出基于K-means聚类方法的多项考核指标分析技术,并研究了考核指标与学习者的终结性评价之间的关系;针对目前远程教育中个性化教学水平较低的问题,温泉等提出了一种基于粗糙集的Web学习者聚类算法,提高了远程教学网站的个性化教学水平[22][23];王新颖等把基于关联规则的聚类技术应用到远程教育的Web网页和用户数据分析中[24];孙莹等采用数据挖掘方法分析了自主学习行为特征等现状,从而有利于教师及教学管理人员有目的地引导学生的学习[25];郑春香和韩承双研究了关联规则分类算法,应用关联规则Apriori算法,对远程教育考试系统数据样本进行数据分析,从分析的结果中发现有价值的数据模式,寻找其中存在的关系和规则,可以为教学和考试环节发挥调节、控制、指导作用,为远程教育管理提供合理、科学的决策支持[26];以自贡电大2009级近百名本科学员基本资料及学习记录为采样数据,毛布等利用动态聚类的方法进行了有效的学员细分及数据分析,并在此基础上提出了相应的建立适合远程教育的资源库的策略[27];朱祖林等运用t检验、方差分析、灰关联分析等统计分析技术,通过典型抽样和便利抽样等方法对远程教育数据进行挖掘分析[28];侯月姣等使用K-means算法对学生的属性数据和相应课程的成绩进行了聚类数据挖掘,发现学习者群体的特点,结合聚类结果的特性和差异,为课程资源建设及教学过程的改进提供帮助[29];张晓芳把网格聚类思想应用于远程教育系统中,具有良好的聚类性能以及运算速度[30];白若微等以CNKI数据库为样本来源,借助Citespace II信息可视化分析软件,对我国远程教育领域中应用数据挖掘技术的相关研究进行基于科学知识图谱的可视化分析,以期为数据挖掘有效促进远程教育的研究提供参考[31];周圆等以西南交通大学网络教育学院2008-2012年所有学生的学籍数据为研究对象,采用关联、求和、百分比、标准差等多种统计方法,系统分析了该学院五年间学生辍学的整体情况和变化趋势,并比较挖掘了多视角下辍学率变化的情况差异和发生规律,揭示了影响远程教育辍学率的多重因素[32];周剑云以Moodle网络课程管理系统为研究基础,分析并提出有针对性的数据挖掘方法构架,以对课程建设情况和学生学习情况的跟踪分析,为教师改进教学策略、提高网络课程教学质量提供有力支持及方法借鉴[33]。   三、自适应基因表达式程序设计
  基本的GEP算法对于杂交概率(包括单点杂交概率和两点杂交概率)和变异概率都是人为根据经验设置固定的值。然而根据不同问题设置最优的杂交概率和变异概率是很困难的。此外,由于演化算法本身的动态特性,设定固定不变的参数值也是不合理的。为了避免人为选择最优参数困难和参数敏感性的不足,本文采用自适应参数设置技术动态控制GEP算法的杂交概率和变异概率,提出了改进算法——Adaptive Gene Expression Programming,简称AGEP,具体设计如下:
  1. 个体的编码及表示
  4. 算法流程
  AGEP的算法流程和GEP相似,具体如下:
  (1)随机产生初始群体,群体中的个体是一些具有固定长度的线性串,串中的符号是由表示问题的函数和终结点随机组合而成的;
  (2)用表达式树表示个体,执行每个程序,并评价它们的适应度值;
  (3)根据公式(4)和公式(5)计算每个个体的变异和杂交概率;
  (4)判断程序是否达到终止条件(终止条件可以是最大演化代数或问题求解精度),如果达到终止条件则程序终止;否则,执行后面的步骤;
  (5)保存当前群体中最好的个体;
  (6)执行遗传操作,包括选择、变异、变换、重组等,形成新的群体;
  (7)返回步骤(2)。
  四、实验结果与分析
  基于上述改进,本文把所提出的AGEP算法应用于我校远程与继续教育学院近5年春秋两季的招生数据建模与预测中,以验证所改进算法的有效性,并且为远程教育中其他数据分析提供有效的工具。
  1. 参数设置
  2. 数据描述
  采用我校远程与继续教育学院2010年到2014年春秋两季招生录取人数作为实验数据(共9个),具体如表2所示。
  3. 实验结果
  4. 实验数据分析
  AGEP算法根据表2的实验数据建立模型得到最优适应值981.42,与理论最优值1000相当接近。此外,所得到的R=0.99999999965表明,建模数据与实际招生数据十分接近。从表4的AGEP模型预测数据与实际数据对比可知,预测数据对2012年秋季到2014年春季的预测数据与实际招生数据的预测误差均为0,表明改进的AGEP算法能较准确地利用原有招生数据建立模型,有效预测下一季度的招生数据。
  表4中AGEP算法对2014年秋季的预测招生人数为7764人,表明在这一季度的招生人数有可能下降较快,这对招生单位起到一定的警示作用,需要通过一定的政策调整来刺激招生,避免该趋势的出现。需要指出的是,如果通过相应的政策调整和招生宣传,2014年秋季的招生人数期望得到提升,在下次使用AGEP算法建立模型的时,只需要重新运行算法,得出相应的预测模型即可。
  五、结论
  本文以我校远程与继续教育学院近年来招生录取人数为研究对象,提出了改进的自适应GEP算法,采用自适应参数控制技术不仅可以避免人数设置参数的敏感性,而且增强了有效性。实验表明,AGEP算法能够准确建立预测模型,所得模型预测数据与实际招生录取人数的预测误差为0。通过本文提出的AGEP算法建立的模型可以为招生单位下一季度的招生提供有效参考,并据此进行相应的政策调整和招生宣传,起到良好的参考作用。
  虽然AGEP较好地克服了基本GEP手动设置杂交概率和变异概率的不足,但是,与GEP一样,AGEP也存在固有的不足:如何较好地设置模型的常数,如何确定基因头部的长度等。把AGEP应用于其他领域的数据预测也是将来的一个研究热点。
  [参考文献]
  [1][19] 王菁菁. 远程教育系统学生分类的数据挖掘研究[D]. 辽宁工程科技大学硕士学位论文,2010.
  [2]肖贻裕. 对新形势下远程教育招生工作的思考[J]. 科技资讯, 2012,( 22):209-210.
  [3] C. Ferreira. Gene expression programming: A new adaptive algorithm for solving problems[J]. Complex Systems, 2001, 13(2): 87-129.
  [4] 李曲,蔡之华,朱莉等. 基因表达式程序设计方法在采煤工作面瓦斯涌出量预测中的应用[J]. 应用基础与工程科学学报,2004,12(1): 49-54.
  [5] 郑皎凌,唐常杰,徐开阔,杨宁,段磊,李红军. 用态势模型预测基因表达式编程的进化难度[J]. 软件学报,2011,22(5):899-913.
  [6] 周倩,王红,姚震. 基于基因表达式编程的规则分类[J]. 计算机工程与设计,2013,34(10):3492-3496.
  [7] C. Zhou, W. Xiao, T. M. Tirpak, et al. Evolving Accurate and Compact Classification Rules With Gene Expression Programming [J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 519-531.
  [8] H. S. Lopes, W. R. Weinert. EGIPSYS: An Enhanced Gene Expression Programming Approach for Symbolic Regression Problems [J]. Int. J. Appl. Math. Comput. Sci. 2004, 14(3): 375-384.   [9] J. Zuo, C. Tang, C. Li, et at. Time Series Prediction based on Gene Expression Programming [C]. International Conference for Web Information Age, 2004.
  [10] 黄晓冬,唐常杰,李智等. 基于基因表达式编程挖掘函数关系[J]. 软件学报,2004, 15(增刊):97-106.
  [11] 汪锐,唐常杰, 段磊等. 基于GEP的多项式函数关系分解[J]. 计算机研究与发展,2004,41(增刊):442-448.
  [12] 元昌安,唐常杰, 左劼等. 基于基因表达式编程的函数挖掘——收敛性分析与残差制导进化算法[J]. 四川大学学报(工程科学版), 2004, 36(6).
  [13] Z. Cai, S. Jiang, L. Zhu, et al. A Novel Algorithm of Gene Expression Programming Based on Simulated Annealing [C]. International Symposium on Intelligent Computation and its Application, Wuhan, China, 2005, 605-610.
  [14] C. Ferreira. Designing Neural Networks Using Gene Expression Programming [C]. The 9th Online World Conference on Soft Computing in Industrial Applications, 2004.
  [15] C. Ferreira. Analyzing the Founder Effect in Simulated Evolutionary Processes Using Gene Expression Programming [J]. Soft Computing Systems: Design, Management and Applications, 2002, 153-162.
  [16] Z. Xie, X. Li, W. Xiao, et al. Using Gene Expression Programming to Construct Sentence Ranking Functions for Text Summarization[C]. In Proceedings of the 20th International Conference on Computational Linguistics, 2004.
  [17] J. Han, M. Kamber. 范明,孟小峰等译. 数据挖掘——概念与技术[M]. 北京:机械工业出版社,2004.
  [18] 陈登科,胡翠华. 数据挖掘技术在远程教育中的应用[J]. 情报科学, 2003, 21(4):445-448.
  [20] 陶灵奴,孙继银,李智,郭文普. 远程教育考试成绩分析决策树的构造方法[J]. 计算机工程与设计,2006,27(6):976-978.
  [21]肖勇,程华,孙莹. 决策树方法在远程教育过程考核中的探索[J]. 远程教育,2008:53-56.
  [22] 程华,夏宁,肖勇. 基于聚类分析的远程教育过程考核体系研究[J]. 华东理工大学学报(社会科学版),2008,(2):112-117.
  [23] 温泉,江美英,覃俊. 远程教育中基于粗糙集的聚类算法[J]. 中南民族人学学报(自然科学版),2007,26(1):84-87.
  [24] 王新颖,王向丽,张文华. 基于关联规则的聚类挖掘在远程教育中的应用[J]. 现代远距离教育,2008,(4):12-14.
  [25] 孙莹,程华,万浩. 基于数据挖掘的远程学习者网上学习行为研究[J]. 中国远程教育,2008,(5):44-47.
  [26] 郑春香,韩承双. 关联规则研究及在远程教育考试系统中的应用[J]. 计算机技术与发展,2009,19(8):186-188.
  [27] 毛布,田林,谢汶. 基于动态聚类的网上学员细分实证研究[J]. 四川理工学院学报(自然科学版),2010,23(6):682-685.
  [28] 朱祖林,毕磊,齐新安,李莹,陈彦彦,宋阳. 现代远程教育辍学率的挖掘分析——基于安徽地区1999-2009年数据[J]. 远程教育,2011:18-26.
  [29] 侯月姣,李青,王晓军,李晓丽. 基于K-means聚类算法的远程学习者效果分析[J]. 北京邮电大学学报(社会科学版),2011,13(1):104-109.
  [30] 张晓芳. 聚类分析算法在远程教育系统中的应用研究[J]. 科技通报,2013,29(4):106-108.
  [31] 白若微,张夏,周榕. 远程教育中数据挖掘技术的研究热点与发展趋势——基于Citespace II的可视化分析[J]. 2013,27(5): 512-516.
  [32] 周圆,罗霄,应松宝. 远程教育辍学情况的统计分析及数据挖掘——基于西南交通大学网络教育学院2008-2012年数据[J]. 中国远程教育, 2014,(8):62-66.
  [33] 周剑云. Moodle平台网络课程数据挖掘模式分析[J]. 中国远程教育,2014,(9):68-71.
  [34] 龚文引,蔡之华,刘亚东,基因表达式程序设计在复杂函数自动建模中的应用[J]. 系统仿真学报,2006,18(6):1450-1454.
  [35] M. Srinivas and L. M. Patnaik. Adaptive probabilities of crossover and mutation in genetic algorithms [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1994, 24(4): 656-667.
  收稿日期:2014-09-15
  作者简介:朱翠云,硕士;贺亚锋,硕士;成中梅,博士,副院长。中国地质大学(武汉)远程与继续教育学院(430074)。
  龚文引,博士,副教授,中国地质大学(武汉)计算机学院 (430074)。
  责任编辑 日 新
  责任校对 日 新
其他文献
根据党的十八届三中全会提出的全面深化改革的总目标,加快推进教育治理体系和治理能力现代化已经成为教育系统的首要任务。这对各级各类教育的改革和发展都必将产生广泛而深刻的影响,无疑也将决定远程教育的基本格局和发展走向。从传统“管理”到现代“治理”,对远程教育会有什么直接的和间接的、现实的和潜在的影响,远程教育怎么才能实现这样的跨越,许多课题亟待从不同层面——包括实践层面及学术层面进行探索。  教育体制改
第十届教育媒体国际会议(ICoME 2012)暨国际教育技术学研究生暑期学校于2012年8月20日至22日在北京师范大学隆重召开。ICoME由日本教育媒体研究会和韩国教育信息与媒体协会于2003年发起,经过十年的发展,已成为亚太地区教育媒体领域规模宏大、具有权威和影响力的年度盛会。我国于2011年加盟,今年是ICoME第一次在中国召开,由北京师范大学教育学部教育技术学院主办、中国教育技术协会协办,
别说我“不容易”  采访前一天,王景春跟几个影视圈朋友聚会,演员颜丙燕也在。王景春跟颜丙燕说起,2003年时,两人一块儿拍过戏。颜丙燕一时想不起来,问他,那部片子男一号是谁?  王景春答,我呀。颜丙燕这才想起,片中,自己似乎演了王景春前女友,戏分不多。她话锋一转,恍然大悟般跟王景春说,呀,你2003年就演主角了。  “老说我没演主角,老说配角这事儿”,这是《智族GQ》年度人物拍摄现场,此刻,王景春
【摘 要】  远程教育中教的行为与学的行为的时空分离作为异步教学说的核心思想,在国内外远程教育界被广泛接受。教师与学生跨越时间、空间进行交互不可避免地存在通信延迟现象,会对教学效果产生严重影响。形成性考核作业册的评阅质量和及时性可以有效消除异步教学的时间延迟,避免学习者因积累而形成的学习障碍。本文运用观察法、访谈法和内容分析法对从中央电大直属北京、太原、南海学习中心的重点专业中抽取的五门主干课程形
【摘 要】本文借鉴虚拟团队概念和投入-过程-产出(I-P-O)模型,分析了综合英语课程教学团队在虚拟环境中运作的三个环节,将保障该团队有效运行的关键要素(沟通与协作、动态工作关系的维系、信任关系的建立)在过程环节中单独列出并进行探讨,以解释教学团队设计、过程和绩效之间的关系。本文旨在引发对虚拟环境中的课程教学团队的多维度思考,以拓展远程开放教育师资队伍建设的发展空间,探索远程开放教育教学团队的运作
主题感知·素养解读  在所有的艺术形式中,音乐是最擅长抒发情感、最能拨动心弦的艺术形式。有时,一段低沉、伤感的小提琴独奏会使我们原本快乐的心情瞬间变得低落、惆怅;有时,一曲清新、欢快的钢琴曲會让我们糟糕的心情顷刻间欢畅。有时,一首高亢、激昂的进行曲会让气馁的人振奋;有时,一段安静的小夜曲使浮躁的人舒缓、冷静下来……  这就是音乐的魅力!让我们一起来感受音乐的力量吧!
Onitsuka Tiger鬼塚虎2020春夏时装秀秀场。Onitsuka Tiger鬼塚虎创意总监安德烈·蓬皮利奥。  自1964年东京第一次承办奥运会起,Onitsuka Tiger鬼塚虎就与这一世界级的体育盛会结下了不解之缘,它的跑鞋出现在了奥运会的赛场上。随后,在1966年,即1968年墨西哥奥运会前夕,品牌研发出了著名的Mexico 66鞋款一它也是首次采用品牌标志性象征交叉条纹的鞋款。
當你在享受美食时,有没有用过“Q”这个字母来形容它的口感?其实,在台湾地区,有很多具有“Q”感的美味小吃,而且这些小吃给人们带来了一种欢快的心情。让我们通过下面的文章更具体地了解一下“Q”感美食吧!  难词扫障  1.texture n. 口感  2.peddle v. 兜售  3.the fluorescent lights 荧光灯  4.the Asia’s finest cuisine ca
[编者按]《国家中长期教育改革和发展规划纲要(2010—2020年)》的制定与实施昭示我国教育改革进入新阶段,广播电视大学也面临新的重大历史机遇和严峻挑战,很多重要问题包括瓶颈问题,都需要在实践中寻求突破,其中就包括课程教学资源的建设、应用与共享。实现《规划纲要》提出的要求,在建设开放大学的进程中,不断推进课程教学资源的建设、应用与共享,特别是进行相关机制的探索,显然必须有新思路和新举措。2010
【摘要】在大数据背景下,学习分析已成为远程教育领域的重要研究主题。其中,社会网络分析是学习分析的重要组成部分。已有研究者对论坛为主的远程交互进行了社会网络分析,但对于新兴Web2.0工具和社交平台中交互的社会网络分析研究仍很欠缺。究其原因,数据获取和分析过程的复杂性是重要因素,而优秀的分析工具可以使社会网络分析过程事半功倍。本文在对现有社会网络分析工具进行比较的基础上,从数据获取、网络技术和图形定