论文部分内容阅读
随着信息技术的发展,尤其是数据获取技术和数据存储技术的发展,人们几乎可以随时随地获取数量巨大的数据,并存储下来。然而,数据本身的价值有限,如果没有一种有效的工具帮助我们对数据进行分析和处理、把数据转化成知识,面对数量庞大的数据,我们就显得束手无策。幸运的是,机器学习和数据挖掘为我们提供了一种数据分析和挖掘的工具。机器学习是指系统根据经验改善自身的性能。在过去的三十年里,机器学习研究获得了前所未有的发展,并在多个领域取得了成功的应用。本文以生物特征识别中指纹图像分割和商业领域中的交叉销售问题为背景,深入开展了机器学习算法的应用研究。指纹图像分割是指纹识别中的一个重要的预处理步骤。指纹分割的目的是把包含指纹纹理特征的前景从背景图像中分割出来。传统的指纹分割算法都是使用手工分割的指纹图像通过监督学习或者是依靠专家的经验构建一个分割模型,耗费大量的人力。随着基于生物特征的身份认证的应用领域的不断扩展,网络环境下的指纹识别面临着设备互操作性问题。与传统的分割算法利用多幅指纹的共性信息进行分割不同的是,本文提出了一种只依靠输入指纹自身的信息,通过半监督学习技术训练一个分割模型,实现了个性化指纹分割,具有良好的设备互操作性,而且,训练模型时不再需要手工分割后的指纹图像作为训练样本,提高了自动指纹识别系统的自动化水平。另外,本文系统研究了类别不平衡问题以及类别不平衡学习算法在交叉销售等商业领域中的应用研究。研究指出了类别不平衡问题主要存在的应用领域,回顾了针对类别不平衡问题举办的学术活动,列举了常用的类别不平衡学习算法的性能度量准则,对类别不平衡四类代表性的算法进行了归类介绍;之后,以2007年亚太知识发现和数据挖掘竞赛任务为案例,分析了该数据挖掘任务中面临的若干具有挑战性的问题,提出了一种用于解决交叉销售问题的集成学习方案EnSVM,可以有效预测潜在的交叉销售的客户,为高层管理者提供决策支持。