论文部分内容阅读
大数据作为一门新兴的技术,在信息化的时代,极大推进了互联网科学的发展。大数据技术在各个行业的渗透为我们生活中的多个方面都带来了好处,也给各行各业带来了新的挑战。就教育而言,信息爆炸的社会要求教育组织的工作不只是管理快速增长的学生信息,还要能从中充分发掘出有价值的结论以助力学生在学校的学习和个人发展。基于该问题,本论文从推动大数据技术在教育领域的研究出发,首先阐述了针对学生的日常行为模式的研究带给教育的意义。然后,本论文结合了心理学理论中的性格模型对学生在校园内的日常行为模式进行解释和分类。最后,本论文结合包含本校(UESTC)学生信息的一个匿名数据库,进一步对学生在校园内的行为模式同成绩数据之间的相关性、不同行为特征之间的内秉性(intrinsic correlation)、以及行为模式同地域因素之间的相关性这三个问题进行了研究。本论文的研究工作和主要贡献包括了以下的三个部分:1.针对教育组织难以在考试之前判断学生成绩的上升或下降趋势这一问题,提出采用心理学中的大五性格模型(Big Five Personality Model)来解决。对应其中与成绩相关的性格特征尽责性(Conscientiousness)的定义,以及其子特征Achievement和Order的定义,分析并筛选出了与成绩相关的行为特征。进一步,根据行为特征筛选结果,抓取了海量学生的行为数据和成绩数据,并将这些数据量化。量化离散化的的行为数据采用了累积次数和真实熵的方法,量化成绩数据采用了归一化排名的方法。最后,将经过量化的行为模式与成绩排名做相关性分析,实验结果表明,Achievement相关的行为特征与成绩有明显相关性,Order相关的行为与成绩之间也有不可忽视的相关性。2.性格特征Order表示了将工作、生活结构化、规范化的倾向,有多种校园日常行为特征与之对应。针对各种行为特征之间相互内秉性影响力的问题,提出采用条件概率和肯德尔等级相关系数(Kendall rank correlation coefficient)分别统计各个Order的行为特征之间的静态和动态内秉性概率。实验结果表明,与Order相关的行为特征中,在食堂用餐这一行为具有最强的内秉性影响力。并且,随着时间的推移,所有这些与Order相关的行为特征的内秉性影响力都会增强。3.针对学生之间的不同的Order的行为特征存在差异性非常大的情况,提出日常行为模式之间的差异与地域因素有关的假设,具体而言,是与个人所在地区的高考入学UESTC的难度有关。接着,对应数据库中的籍贯地信息和行为模式的记录,从网上公开的数据中查找到各地区两年内的高考分数信息,并转换成难易度排名。然后,从排名中筛选出入学难度差距大,但是地理位置相邻的地区组,以排除环境因素对高考入学UESTC难度的干扰的可能性。最后,用筛选出的地区组同各行为特征的Order强的学生比例做了相关性比较。结果表明,各地区高考入学UESTC的难度,与图书馆门禁刷卡时刻这一行为有微弱的负相关,与洗澡无关,与食堂用餐刷卡时刻正相关。