基于模糊邻域互信息的肿瘤基因选择方法研究

来源 :河南师范大学 | 被引量 : 1次 | 上传用户:dingchuan646
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是人类健康的一大威胁,肿瘤的发生是由于基因的异常表达,而基于微阵列技术的基因表达谱可近似反映基因的表达情况。但基因表达数据中绝大多数基因与肿瘤发病无关。因此,本文基于基因表达数据,致力于模糊邻域粗糙集基因选择方法的研究,为肿瘤的发病预测及诊断提供了新的方法。主要研究内容如下:(1)针对现有方法在肿瘤分类过程中未考虑样本的邻域与决策等价类存在不完全包含,从而导致肿瘤分类精度不高的问题,引入参数化的模糊相似关系对模糊邻域信息系统中的连续型数据进行粒化,以最大可能保留连续型数据的分类信息,提出了一种基于模糊邻域互信息的变精度肿瘤基因选择方法。首先,引入一种新的熵度量模糊相似关系的不确定性;然后,给出了模糊邻域联合熵、模糊邻域条件熵和模糊邻域互信息的定义,研究了这些不确定性度量的基本性质;最后,定义了模糊邻域信息系统中的外部属性重要度和内部属性重要度,用该指标来评价候选特征,从而设计了一种基于模糊邻域互信息的变精度肿瘤基因选择算法,并将该算法应用于基因表达数据。该算法在六个公开基因表达数据集(DLBCL、SRBCT、Leukemia1、9_Tumors、Leukemia、Brain_Tumor2)上进行仿真实验,其结果表明,与现有算法相比,该算法可有效去除基因表达数据集中的噪声和冗余基因,获得较小的特征子集,提高肿瘤的分类精度,且具有较好的稳定性。(2)针对模糊邻域粗糙集特征选择过程中未考虑随着属性的增加,存在正域减小、分类精度降低的问题,提出了一种基于模糊邻域互信息的非单调性肿瘤基因选择方法。首先,使用机器学习中的Fisher score降维方法对基因表达数据集进行初步降维;其次,将覆盖度和可信度引入到模糊邻域信息系统中,提出模糊邻域覆盖度和模糊邻域可信度,并将其与信息熵的不确定度量相结合,提出了模糊邻域决策熵、模糊邻域条件熵、模糊邻域联合熵以及模糊邻域互信息;然后,研究这些不确定性度量的性质以及它们之间关系,设计了一种基于模糊邻域互信息的非单调性特征基因选择算法。该算法在四个公开基因表达数据集(Colon、Leukemia、Brain_Tumor2和Lung)上进行十折交叉验证的仿真实验,实验结果表明,与现有的相似算法相比,该算法可大幅度降低基因表达数据的维数。
其他文献
随着信息技术的高速发展,大数据时代的数据呈现出爆发式增长、形式复杂多样以及语义日益丰富的特点,传统的单标记数据无法描述一个对象同时属于多个类别的问题,需要利用多标记学习来描述这类数据。此外,面向多标记学习中的多标记数据高维性是广泛存在的,由于侦测手段和隐私保护等因素,其中包含着冗余、不相关的以及不完备的信息,这严重影响了多标记分类的性能。本文针对多标记学习中的高维数据特征选择问题,扩展邻域粗糙集理
学位
双论域模糊概率粗糙集模型作为粗糙集的拓展模型,可以有效处理概率不确定性和模糊性并存的数据分析。本文基于双论域模糊概率粗糙集模型,从多粒度的角度对其进行拓展,考虑对象的模糊等价类可能为空的情形,构建了一种双论域多粒度模糊概率粗糙集模型,将双论域模糊概率粗糙集模型拓展到了多粒度结构层次。此外,随着时间的推移,信息系统中的数据常常会发生变化,粗糙集的知识也可能会随之改变,此时如何对近似集进行高效率的更新
学位
近年来,随着智能教育的发展,互联网在线教育平台应运而生,打破了传统课堂的时空限制,实现教育资源共享。越来越多学生选择在线教育平台进行辅助学习,积累了大量的学生学习数据,这些数据蕴含了丰富的信息和价值,为实现知识追踪等教育研究任务提供有力的支撑。知识追踪任务是通过对学生学习数据进行建模追踪学生知识状态的变化,旨在掌握学生的学习水平、知识状态等,从而为学生制定个性化学习方案,提升学生学习效率。因此,如
学位
隐私集合交集是信息安全的重要研究内容,在测量广告转化率、指纹匹配、僵尸网络检测、人类基因组测试以及社交网络等领域有着广泛的应用。隐私集合交集允许多个参与方共同计算并得到各自拥有集合的交集,同时不泄露各方的隐私信息。然而,现存的隐私集合交集协议运行效率低下,并不适用于计算能力薄弱的便携式设备。此外,在多方隐私集合交集中,被腐败的参与方之间的合谋将导致整个协议无法执行或诚实的参与方得到错误的结果。针对
学位
随着互联网的高速发展,使用互联网的人数也呈几何式增长,人们也越来越习惯依靠互联网进行信息传递,这也导致大量的数据信息流入互联网,其中也不乏一些机密信息例如病人的CT图像、商业秘密甚至于军事机密。图像则是信息传递与存储的一个最重要的载体,已经被广泛应用于日常生活以及商业、医学、军事等方面,图像中往往会隐含着大量的隐私以及其他秘密信息,那么为了确保隐私与其他秘密信息不被非法窃取图像的安全问题亟须得到保
学位
现实工程应用中所产生的数据集包含了大量难以处理的特征,这增加了数据挖掘的计算开销并降低了分类的准确性,尤其是高维数据集。特征选择是消除数据集中多余和嘈杂特征的一种简单有效的方法。传统的特征选择方法往往会随着搜索空间的扩大,计算量随之增大而导致计算复杂度增加。而基于启发式搜索策略的特征选择模型及算法计算效率高,在解决特征选择优化问题上表现出优越的性能,已引起了广大学者的关注和研究。相比遗传算法、粒子
学位
计算机的快速发展为多媒体数据的分享传播带来了空前便利,但与此同时也带来了很大的风险跟隐患,如未经授权作品的传播,不仅给作品版权拥有者造成了版权侵害以及财产损失,也阻碍了多媒体版权行业的发展,版权保护在这个数据传播方便且迅速的环境下显得尤为重要。信息隐藏技术在数字签名、版权保护、篡改检测等方面具有非常重要的作用,通过将一些具有标识性的信息嵌入在多媒体数据中,在必要的时候进行提取来证明。作为信息隐藏领
学位
在某些实际的应用场景中,如深空通信、野生动物追踪等场景中,通常不存在端到端的可靠连通链路,导致传统网络无法有效运行,因此对移动机会网络的研究引起了科研人员的广泛关注。移动机会网络无需依靠固定的基础设施即可实现通信,对拓扑时变性、节点资源受限性和密度稀疏性具有较强的适应力。其采用“存储-携带-转发”方式进行数据传输,在整个数据传输的过程中未事先确定转发路径,动态选择每一跳转发节点。通常在经历多跳节点
学位
近年来,深度神经网络凭借着端到端建模、自适应特征提取等特点,被成功应用于轴承故障诊断问题。但是,深度学习技术较依赖于训练数据量,而在实际工程应用中,受各种因素制约,常常出现故障数据量不足、缺乏对数据的有效标定等现象,易产生较大的模型偏差,降低诊断结果的准确性和稳定性,严重制约了深度学习技术在轴承故障诊断中的应用效果。针对上述问题,本文将深度迁移学习技术引入上述轴承故障诊断问题,研究利用不同工况下的
学位
目的:1.初步探究胃充盈超声筛查胃癌可行性。2.以术后病理为标准,比较胃充盈超声与增强CT胃癌术前T分期的诊断准确性。方法:1.前瞻性纳入接受胃充盈超声检查并于一周内行胃镜检查的228例胃部不适患者,测量胃底、胃体、胃窦前壁处全层胃壁厚度,选取最厚全层胃壁分析。根据患者主诉、年龄等综合赋分。将上皮内瘤变、胃癌、淋巴瘤等归类为高危级别疾病。分析胃充盈超声与胃镜检出高危级别疾病的一致性;以及全层胃壁厚
学位