基于反投影表示的肿瘤基因表达谱数据分类研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:xiaojinzhu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的快速发展,我们可以快速准确地获得肿瘤基因表达谱数据.特征选择和样本分类是基于基因表达谱数据的肿瘤分类的两个基本问题.通过分析这些数据可以为肿瘤早期诊断和从分子层面上研究提供强有力的工具.近几年来基于稀疏表示的肿瘤分类技术受到越来越多的关注.然而基于稀疏表示的分类器存在以下问题:(1)高度依赖充足的训练样本;(2)忽略蕴含在测试样本中的信息;(3)重建误差的分类不稳定性.而且,设计高效且具有生物意义的基因选择方法是目前发展的趋势.针对以上问题,本文主要做了如下研究工作:一方面,提出了一种基于反投影表示和类别贡献率的肿瘤分类方法,并从理论上证明了该方法的可行性和稳定性.首先,通过挖掘嵌入在测试样本中的信息,构造了一种新的反投影表示模型以减小训练样本数目的影响;然后,为了匹配反投影表示模型完成分类,提出了一种新的分类准则——类别贡献率;最后定义了一种新的统计指标——分类稳定性指标,用于量化不同分类准则的稳定性.另一方面,在前一工作的基础之上,进一步提出了一种结合两阶段混合基因选择和反投影表示模型的肿瘤分类方法.两阶段混合基因选择方法的第一阶段是综合BW、SNR和F检验三种过滤法的基因初选,第二阶段是基于统计Lasso方法对初选出的信息基因进行再次选择,得到可能的致病基因.进而,结合反投影表示模型完成分类.实验部分针对第一个工作,首先验证了反投影表示对小样本问题的有效性,然后利用分类稳定性指标验证了本文基于类别贡献率的分类准则的稳定性,最后进行了分类方法的鲁棒性测试;对于第二个工作,首先给出了基因选择的必要性和Lasso的可行性验证,然后借助不同阶段基于主成分分析的可视化投影分布图和分类性能验证两阶段混合基因选择方法的高效性.值得一提的是,进一步地借助该方法选出了候选致病基因并对这些基因进行了生物学分析.
其他文献
<正>广东教育出版社多年来始终以坚持正确出版导向、弘扬先进文化为宗旨,贯彻围绕中心、服务大局的出版思路,取得了良好的社会效益和经济效益。粤教社在立足教育、专注教育、
背景据《2015年中国癌症统计报告》最新数据显示,胃癌在中国的发病及死亡率均排名第二位[1]。世界范围内,胃癌的发病呈现逐年递增的趋势,每年大量的新发胃癌数据中,有大约60%
在行人导航系统中,零速修正(zero velocity update,ZUPT)方法能够准确计算出速度误差和水平姿态角误差,但是航向角误差却因其不可观难以估计而极易发散。为了解决航向角误差
建设积极健康的党内政治文化是中国共产党落实新时代全面从严治党的战略举措,也是中国共产党顺利推进新时代伟大斗争、伟大工程、伟大事业和伟大梦想的内在要求。新时代加强
为探究影响生物柴油雾化性能的主次因素,对B100(棕榈油生物柴油)、N10(生物柴油的体积分数为90%,正丁醇的体积分数为10%)和N20(生物柴油的体积分数为80%,正丁醇的体积分数为20%)的雾化
目的:总结四氢生物蝶呤(BH4)缺乏症的临床表现、诊断及治疗.方法:对323例高苯丙氨酸血症患者做尿蝶呤分析;8例患者进行了BH4负荷试验;对14例BH4缺乏症患者做了治疗、随访.结
在辨析相关概念的基础上,基于科学知识图谱的可视化分析工具,以1990-2017年《中国学术期刊(网络版)》数据库为核心文献源,对我国乡村空间研究的知识图谱结构进行可视化分析,
研究组以超音段音位与听力理解二者之间的相关性为切入点,探讨是否能够运用语音感知相关知识促进英语学习者的听力理解能力。选取哈尔滨理工大学荣成学院24名15级英语专业学