论文部分内容阅读
随着国家对大学生的扩招和贫困地区招生专项计划的实施,高校贫困生的比例逐渐增加。对于大学生来讲,经济困难将会给他们的身心健康和学习生活造成不好的影响,为此政府和高校都设立了各种助学金以帮助贫困学生顺利完成学业。但是因贫困生真假难辨以及人为干预导致助学金不能公平准确地发放到真正有需要的学生手中,在此背景下,助学金预测关键技术的研究具有重要的实际意义。本文首先提出一种改进的离群点检测算法,用以识别因校园卡盗刷等原因产生的噪声数据;然后,提出一种面向学生校园轨迹序列的频繁模式挖掘方法,将结果作为行为特征以训练模型;最后,为了进一步提高预测准确率,提出一种基于置信度融合的助学金预测模型。本文主要研究工作如下:(1)针对离群点检测算法LOF没有考虑属性重要度而导致离群点检测不准确的问题,提出一种新的离群点检测算法EA-LOF。该算法首先结合表征数据本身分布不确定性的信息熵以及携带主观信息的专家矩阵对属性进行权重计算,这种计算方式考虑影响属性重要度的主客观因素,可以对属性在离群点检测中能提供的异常信息值进行有效度量;然后,结合属性重要度构造一种新的距离度量公式,把权重信息反映到数据的离群因子计算中,弥补原算法没有考虑属性重要度的缺陷,提高了离群点检测精度。实验结果表明改进后的算法可以提高离群检测的准确率,使用该算法处理后的学生数据可以提高助学金的预测效果。(2)提出一种改进的频繁模式挖掘算法Improved-PrefixSpan。传统的Prefixspan算法的支持度由于只考虑模式出现的次数而在应用中存在一定局限性,比如有的模式虽然出现次数多但对最终的结果不具有重要参考价值,鉴于此,利用序列的频繁度和后缀序列的平均长度构造新的支持度,该支持度作为新的模式指标可以同时衡量序列的有效性与频繁性,克服原算法只考虑模式出现次数的缺点,提高频繁模式挖掘结果的质量;提出一种评分准则对挖掘结果进行评价、排序以筛选出包含最多学生行为信息的频繁模式。通过对得到的结果分析表明,本文提出的方法可以提取出有效表现学生在校行为的模式,为后续的模型训练提供可靠的特征输入。(3)为了进一步提高预测准确率,提出基于置信度融合的助学金预测模型。鉴于置信度计算依赖于各个基学习器的准确度,首先设计两种准确度指标,样本局部分类准确度和类别分类准确度,前者衡量基学习器对某一样本及其邻域样本的分类能力,后者衡量基学习器对某一类别中的所有样本分类能力;基于两种指标生成基学习器置信度评估函数,引入平衡参数调节两个指标对置信度的贡献能力,有效描述学习器预测结果的可靠程度,解决了传统融合策略中没有考虑单个学习器预测结果可靠性的问题。实验结果表明,本文提出的基于置信度融合的助学金预测模型要基于单分类算法的预测结果提高0.025,比基于投票融合的模型高0.027,比基于均值加权融合的模型高0.036。