组中选优机器学习问题建模和算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:RaymanL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然、经济和社会领域,大量存在样本以组为单位,分类任务为学习训练集中每组“最优”样本的规律,然后预测未见样本组的最优样本问题;而现有机器学习问题的样本都以个体为单位,鲜有考虑成组出现和组中选优的情况。   本文将实际工作中大量存在的以上问题,归纳为组中选优机器学习问题。本文首先研究了新机器学习问题的建模和模型求解算法,接着给出了新模型和新算法的一个具体应用,表明新模型的有效性和优越性。本文的主要工作有:   1.提出了组中选优机器学习问题,并分析了该问题的新特点。组中选优的目标是选出每组中的最优样本,因此它仅需学习组内不同类样本之间的差异性,无需学习组间同类样本之间的相似性。进一步地,组间同类样本之间的相似性比较或学习不仅没有意义,甚至还会带来负面影响。   2.建立了基于支持向量机(SVM)的组中选优分类新模型(G.SVMs)。首先设计了组中选优机器学习问题的置信风险和经验风险的定量度量指标,然后根据SRM原则建立了体现组中选优特点的分类新模型(G-SVMs)。同时也导出了它们的对偶问题,以及原问题和对偶问题解之间的关系。   3.给出了G-SVMs的最小序贯算法(SMO)。首先研究了新模型最优解的KKT条件,然后根据该条件给出新模型的SMO算法,并在MATLAB环境下进行实现。   4.在数据预处理方面,提出了保持组内不同类样本差异条件下,减弱组间同类样本比较影响的组内比例化方法。   5.开展了G-SVMs在深交所新股申购中的应用研究。深交所新股申购投资问题是典型的组中选优问题,通过对比试验,表明了G-SVMs的有效性和优越性。   当组数为1时,G-SVMs就是经典的SVM,因此G-SVMs是经典SVM的一般化。组中选优机器学习问题的研究可丰富现有机器学习的模型和算法,拓广现有机器学习的应用领域。
其他文献
动态不确定环境下的多Agent决策问题,因其更加贴近现实世界,具有更高的实用价值,而成为人工智能领域研究的重点和热点,且有着广泛的应用前景。但是,多Agent决策面临巨大的物
凝析天然气是一种特殊的多相流。本文将其简化为低含液率气液两相流来研究其计量问题。基于课题组自行开发的槽式孔板,结合旋进漩涡流量计和振动传感器,本文提出了一种基于静
钢绳芯输送带被广泛的应用于各个领域,成为承担运输任务的重要环节,其正常运行是保证安全、高效地生产的关键所在。钢绳芯输送带中横向断带事故的发生对其安全运行造成极其严
电阻层析成像属于现代工业检测的前沿技术,具有非侵入、无辐射、在线测量等优点,在地质勘探、工业过程与环境监测等方面有着广泛的应用。本文的主要任务是在实验室现有的ERT
多属性决策(MADM)是决策科学的一个重要的组成部分,在工程设计、经济、管理和军事等诸多领域中有着广泛的应用。近年来,由于客观事物的复杂性、不确定性以及人类思维的模糊性
井下随钻测量仪器可以在靠近钻头处实时测量工程参数、地质参数等,能够真实地反映井下实际情况、优化钻井流程,因而在实际钻井作业中得到广泛运用。   本文的主要工作包括
在大运行范围内,飞机气动参数随着马赫数、飞行高度等物理量的变化十分显著,使得飞机的动力学模型随着飞行状态的改变而产生大幅度变化,加之飞机本身具有的非线性、多变量、
目标跟踪是无线传感器网络的一项重要应用。由于二进制传感器节点具有体积小、能耗低、节点操作和数据通信简单等特点,使得二进制无线传感络(Binary wirelesssensor networks
作为深圳特区西部重要的对外联系枢纽,南山区的经济发展导致其人口规模的快速膨胀,大大加重了城市的负担。若城市人口总量长期持续高速增长,这不仅给城市管理造成极大压力,还
随着科学技术和经济的飞速发展,能源的消耗量日益剧增,导致环境污染加剧,能源紧缺问题越来越突出。太阳能作为一种新的绿色可再生能源已经引起世界很多国家的关注,并研发出光伏发