基于信息熵理论的高维分类问题研究

来源 :对外经济贸易大学 | 被引量 : 0次 | 上传用户:qq447105111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题在遗传标记、肿瘤分类、微阵列数据分析、生物信息学和机器学习等领域都有着广泛的应用。随着数据存储能力与计算能力的提高,高维变量的出现给这些领域带来了新的挑战。为了更好的解释高维分类问题,提高分类预测能力,变量筛选和降维起着重要的基础性作用。
  在分类建模之前,除了进行主效应的选择,考虑到单个主效应的影响并不足以刻画其与响应变量之间的关系,本文重点进行了交互效应的筛选方法的研究,并创新性地提出了一种两阶段筛选方法CV-I-SIS来筛选主效应和交互效应,为高维分类问题建模奠定了基础。以往的交互作用筛选过程大多是基于模型的方法,或将特征假设为连续的情况,不适合分类问题,且显然不够灵活。本文提出的这种筛选方法CV-I-SIS可以很好地满足特征筛选用于分类问题的需求,而且在对数据进行一定处理后这种方法既适用于分类变量,也适用于连续变量。就方法而言,本文一大亮点是利用信息熵之间的变异系数(CV)构造了一个新颖的统计量,使得无论原始特征的变化程度如何,它都能够比较估计的信息熵的变异程度。这种不基于模型的变量筛选策略运行速度快且易于实现。另外,当该方法与一种变量选择方法相结合并进行建模时分类效果很好,甚至可以恢复原来的模型。理论研究方面,本文还研究了所提出方法的确定筛选性质以及变量选择的oracle不等式,并在有限样本情况下通过蒙特卡罗模拟对该方法的效果进行了探究。模拟研究显示,该方法能够准确地在不损失重要信息的情况下将特征空间降维,不仅在筛选分类变量时效果较好,对连续变量以及部分连续部分分类变量的筛选也都有较好的作用,并且验证了方法的确定筛选性质。最后,为了解释该方法的现实意义,本文分析了两个医学数据实验分析,也能很好地说明方法的有效性。
其他文献
学位
学位
学位
学位
This paper investigates the determinants of firm’s performance with evidence of the listed firms in Kenya.I used annual data for the period2013–2018.Various econometric procedures such as Random Effec
学位
This study aims to identify the opportunities and challenges facing the P2P lending industry in Indonesia,with regards to the gaps in the market created by lack of financial access to banks,as well as
学位
Financial development plays one of the most important roles in economic development of each country.This study takes Asian countries as research objects and examines the relationship between financial
学位
为研究“房住不炒”对住房市场交易量的影响和作用渠道。本文先使用包含预期的供求函数推导出:因住房市场供求双方持有住房的成本不同,住房交易量与预期价格呈现同向变动的假设;再使用房价租金比作为预期价格指标推导出证明“房住不炒”政策可以通过影响适应性预期的方式对住房交易量产生影响的方法。本文使用了多元回归分析法和断点回归设计研究了具有代表性的24个城市2014-2018年的住房交易量指数月度数据,通过实证
如今,越来越多的人在网上发表言论,文本数据急剧增加,这些文本信息洪流中包含着大量的情感信息。线上对话可以丰富平台内容,但是也存在着危险,如人身攻击、网络骚扰和欺凌等行为。平台提供商为了平台的运营和发展,必须营造在线对话良好氛围。识别不同文本情感等级,从而可以根据文本的情感评分对发表负面言论的用户进行警告,禁言或封号,对发表正向言论的用户进行奖励等。  现有的文本情感分析方法主要有基于规则的方法和机
学位
互联网的兴起带来了一个数据爆炸、信息爆炸的时代,人们的生活急需要从海量的信息中提取到自己所需的信息,各种不同的推荐系统应运而生。随着数据信息的指数型增长,数据类别的变化、数据的可获取性和数据的多样性都给推荐算法的精准性带来了很大的挑战,传统的协同过滤算法在当下个性化的需求面前,其准确性显得有很大不足。如何更好的利用数据资产对推荐算法进行改进是当下需要被重点思考的课题。  本文基于公开的数据集Mov
学位