癌症分类中基因选择的收缩特征选择算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:f281124698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是当今威胁人类生命的主要病因之一,预防和治疗肿瘤是所有研究人员关注的焦点。随着生物信息技术的发展,基因芯片技术因其高通量、微型化等特点被广泛应用到疾病诊断中,并且从基因表达谱中提取出致病基因已经成为肿瘤治疗的一个新手段。特征选择是数据挖掘中一种非常有效的手段,它可以剔除不相关和冗余的特征,选择出与关注表型最相关的特征子集。但基因表达谱数据常常具有高维、高噪和高冗余的特点,大大降低了特征选择方法的性能,并且导致方法复杂度急剧上升。因此,设计一种有效的特征选择方法在肿瘤诊断中显得格外的重要。本文选择已公开的基因表达数据作为实验对象,并将分类精度的好坏作为评价特征选择算法的指标之一。围绕基因表达谱的特征选择问题,本文展开了一系列的研究工作,主要的研究内容包括如下几个方面:(1)传统的特征选择方法在构建模型时,常常不考虑数据间关联性或过分考虑,导致得到的特征子集解释性不合理、冗余性高和分类精度低。本文提出一种基于加权共表达模块的最小绝对值收缩算法(MLASSO)并将方法应用于肿瘤识别。该方法的基本思想是,首先计算基因相异拓扑矩阵并以此构建加权共表达模块;然后根据模块的特征值与对应表型的相关系数找出疾病相关性较大的模块;最后在选中模块内进行最小绝对值回归收缩操作得到特征基因子集。实验结果表明,MLASSO算法能够有效的提高分类准确度并减少冗余性,实验中将MLASSO方法与相关特征选择方法进行分析对比,最终也验证MLASSO方法的可行性和有效性。(2)本文提出了一种基于相似组的回归收缩特征选择方法(SGLASSO),该方法针对高维高冗余的基因表达数据常常导致特征选择模型出现泛化性较低,局部最优和稳定性差等问题,本文采用构建相似组的方式来提高选择模型的性能。SGLASSO算法利用模块显著性指标筛选并排序疾病相关模块,同时计算基因连接度指标得到各模块代表基因,接着迭代构建相似组和进行回归收缩,最终得到疾病强相关特征子集。实验结果表明SGLASSO能弥补单模块信息不足,能有效提高特征选择方法的分类精度,其稳定性和泛化性也优于其他方法。
其他文献
<正>"致天下之治者在人才"。人才是衡量一个国家综合国力的重要指标,是推动事业发展的基石和灵魂,是引领行业改革的旗帜和标杆。习近平总书记在党的十九大报告中指出:"人才是
红色资源中蕴涵的红色精神是中华民族精神的集中体现。本文从红色资源在大学生思想道德教育中应用的价值、前提和原则三个层面进行了论述,着重从操作层面对红色资源在大学生
"社会公平"是公共行政的"第三支柱"。弗雷德里克森通过对公共行政的领域问题、公共行政的公正问题以及公共行政的伦理问题三个方面的研究,提出了"公平与公正"问题是公共行政
华北地区是我国重要的工农业生产基地,水资源短缺已成为该地区经济可持续发展的主要限制因子,尤其是华北平原东部地区,地下水严重超采,地下水位持续下降,水资源供需矛盾加剧
林业科研常常有大量的数据需要处理。本文通过实例 ,扼要介绍了 Excel97在数据处理过程中的若干应用技巧
南昌绿化树种的初步调查吴文谱吴志忠俞双燕宋秋发(南昌大学330047)(江西省中药材技工学校)(南昌市东湖区绿化委员会)关键词:绿化树种调查分类南昌南昌是一座有着悠久历史的江南古城,又是富
【正】 左下角:“上海通雅书局发行”内卷三舆地类卷四文学类版权页如下光绪三十年三月第一版发行文学舆地类具付光绪三十年十月第二版发行光绪三十一年四月第三版发行每册定
目的观察比较重组人尿激酶原溶栓与尿激酶溶栓治疗急性心肌梗死(AMI)的临床效果。方法选择医院就诊治疗的AMI患者86例,随机分为观察组和对照组,每组43例。2组均给予常规治疗,
根据内蒙古大唐国际托克托发电有限责任公司(下称托电)600 MW直接空冷机组投产以来的实际运行情况,在大量统计资料及试验的基础上,对机组经济运行进行了分析,并探讨了空冷岛
目的:对连翘(Forsythia suspensa (Thunb.) Vahl.)的化学成分进行研究。方法:利用反复硅胶和凝胶 LH-20, ODS柱层析进行分离和纯化, 通过理化性质和波谱数据分析鉴定化合物结构。结