高维小样本数据驱动的马田系统优化及应用研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:liongliong442
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小样本学习是模式识别领域中十分重要的研究主题,而马田系统作为一种多元系统模式识别技术,在大样本数据或不平衡数据的分类问题中应用广泛,但对高维小样本数据的研究却较少。本文针对协方差矩阵的逆矩阵和特征选择的不稳定性问题,通过改进马田系统中度量尺度的构建与特征变量的筛选两个步骤,构建优化马田系统,用于高维小样本数据的降维和分类。
  首先,针对协方差矩阵的逆矩阵不稳定性问题,构建了基于正则化技术和平滑技术的改进马氏距离。首先使用平滑技术改善样本协方差矩阵小特征值的估计,同时利用正则化技术减小被高估的大特征值的影响;随后使用由正则化技术和平滑技术优化后的协方差矩阵构建改进马氏距离,并将其作为优化马田系统的度量尺度;最后利用选自UCI数据集中的8个数据集验证了改进马氏距离的稳健性和有效性。
  然后,针对特征选择不稳定性问题,建立了基于最大相关最小冗余算法和田口试验设计的两阶段特征选择方法。首先使用最大相关最小冗余算法去除噪声和冗余变量,选择与类标签相关度更好的特征子集;然后利用田口试验设计对所得特征子集进行约简,选出对分类精度有重大贡献的特征组合。最后,从稳定性和分类性能两个角度验证了两阶段特征选择方法的有效性。
  最后,将上述优化马田系统应用于小样本条件下的电子邮件过滤问题中。结合改进马氏距离和两阶段特征选择方法,构建了优化马田系统,并将其用于电子邮件的分类。与经典马田系统以及其它三种分类算法进行比较,结果表明,优化马田系统有更好的分类降维效果,能提高电子邮件的分类效率。
其他文献
近年来,金融科技发展越来越受到社会各界的关注。随着核心技术——大数据、人工智能、云计算和区块链的成熟和广泛应用,银行也开始大力发展金融科技,建立金融科技子公司并且与外部科技公司合作。在2019年9月6日,中国人民银行发布的《金融科技发展规划(2019—2021年)》中提出,到2021年,要建立健全我国金融科技发展的“四梁八柱”,并且要求银行年报开始披露科技员工的数量,体现了国家对金融科技的高度重视
学位
并购作为企业成长、产业调整、经济发展的基本载体,以及我国“一带一路”倡议下对外投资的重要方式,因其涉及众多经济主体、影响重大而成为研究的热点问题。对于并购是资源再配置有效方式这一命题已达成共识,但其中具体机制尚未明晰。有关并购收益、并购后整合以及并购的资源配置机制、效率等基本问题,仍处于“黑箱”状态。随着近年来我国经济金融化趋势渐显、经济增长新常态出现,如何提高资源配置效率成为亟待解决的关键议题。
学位
近年来,世界经济增速下行压力较大,贸易摩擦和逆全球化思潮涌动,贸易保护主义和单边主义抬头,金融市场动荡,阻碍了经济全球化的进一步深入和发展,危害全球贸易秩序。2020年新冠肺炎疫情给全球贸易发展带来负面影响,据世贸组织发布的《全球贸易数据与展望》报告显示,受新冠肺炎疫情影响,全球贸易将缩水13%-32%。对外贸易是推动中国经济发展的重要动力,尤其是当前,中国经济发展增速放缓,如何有效推进中国出口贸
学位
随着高铁的迅猛发展,国家的交通基础设施得到了极大的改善和发展,高铁的建设相对也取得了成功。如今,高速铁路已成为居民的重要出行交通工具。高铁开通极大的改善了交通状况,缩短了城市与城市间的行驶距离。依照新经济地理学理论,交通基础设施的改善促使运输成本降低,助推区域之间生产要素的流动,并改变区域的经济发展和经济布局。中国高铁“四纵四横”规划已基本完成,“八纵八横”规划仍在继续,未来交通基础设施将得到进一
学位
由于市场经济条件下,市场竞争会导致部分劳动者失业,造成家庭经济状况困难,同时,市场竞争会导致社会成员之间贫富差距悬殊,导致社会分配不公,另外,当社会成员老弱病残、丧失劳动能力、生活条件艰苦等情况下,也会导致社会成员生活困难。因此,为了有效配置劳动力、缩小贫富差距、维护社会公平正义、维护社会稳定和国家安宁,我国建立了社会保障制度,其中,农村最低生活保障制度对于保障农村贫困人口的生存需求尤为重要,有利
时间序列分析在数理统计中占有非常重要的地位,而自回归(Auto-regressive,AR)模型是线性时间序列分析中研究最广泛的模型,在许多科学和工程领域的应用已非常成熟,因此利用AR模型对已有数据建模具有重要的实际意义.在AR模型的实际应用中,首先需要确定描述模型行为的必要参数的数量,因为这直接关系到模型的可用性以及使用精度.尽管有多种模型定阶方法,但这些方法各有优劣,并且定阶问题没有通用公式,
近年来,推荐算法作为一种高效的信息过滤技术逐渐受到了用户的青睐,并成为了各大互联网站的核心竞争力.在计算机科学没有普及的年代,传统推荐算法在小规模、类别单一的数据场景下表现出高效的信息处理能力,但随着大数据时代的到来,推荐算法在面临大规模、多类型、高纬度数据时遇到了瓶颈,其难以为用户与群体合理建模,并进行精准推荐.本文就探索如何采用合适的方法处理多类型数据,如何归纳群体评分,如何消除群体偏置的影响