论文部分内容阅读
近年伴随着数据量的急剧增长,数据挖掘己经成为人工智能、模式识别等领域的研究热点,已经越来越引起人们重视。其中,关联规则是数据挖掘中最活越的研究方向之一。本文对数据挖掘技术,尤其是关联规则挖掘及其应用进行了系统学习和分析研究,主要包括以下内容:1.Apriori改进算法的设计和分析。对现有关联规则挖掘文献进行调研,特别是对经典的关联规则挖掘算法Apriori算法及其各种优化改进技术进行了广泛研究。在此基础上,提出了命名为Apriori-B的改进算法,该算法主要考虑Apriori算法中频繁项目集生成的瓶颈问题,通过减少事务数据库扫描次数、压缩进一步迭代扫描事务数的方法对Apriori算法进行改进。我们通过实例,给出了采用Apriori-B算法进行关联规则挖掘,发现频繁项集的过程。通过与Apriori算法的对比性实验,对Apriori-B算法的性能进行了分析。2.关联规则有效性的研究。为了挖掘真实有效的关联规则,目前常用的衡量标准是关联规则的支持度和置信度。如果按现有标准来生成关联规则,可能会发现大量冗余的、虚假的关联规则。为了减少关联规则挖掘中无效关联规则,我们提出了三种改进方法,即在关联规则的衡量标准中增加兴趣度、有效度或综合评定度标准,并分别定义了这三种度量。根据兴趣度、有效度或综合评定度的大小,我们将强关联规则分为正关联规则、无效关联规则和负关联规则。一般来说只有正关联规则才是有效的关联规则,有时它们只占强关联规则总数的一小部分。最后,我们提供了基于新衡量标准进行关联规则挖掘的改进算法,实验表明我们提出的方法能明显减少无效的关联规则。3.关联规则挖掘在教学质量评估系统中的应用。对湖南城市学院部分评教数据和教师的档案数据进行关联规则挖掘。我们使用Apriori-B算法产生频繁项集,基于新衡量标准产生关联规则,挖掘出影响教学质量的关键因素。对挖掘结果进行了分析和解释,从而为教学管理部门提供决策支持信息,促使更好地开展教学工作,提高教学质量。