基于P-tree的多决策树基因表达数据分类

来源 :电脑学习 | 被引量 : 0次 | 上传用户:yinjie340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:提出基于P-tree的多决策树分类基因表达数据方法PTMDT(P-tree multi-decision tree)。
  关键词:基因表达 分类 P-tree
  中图分类号TP311.132.3 文献标识码 A 文章编号:1002-2422(2007)03-0050-02
  
  使用The Peano Count Tree(P-tree)结构和的逻辑运算操作,快速地构造出基因表达数据的决策树,用于基因表达数据的分类。实验结果表明PTMDT方法不但可以取得良好的分类精确度,而且在计算速度方面远远好于其它方法。
  
  1 基因表达数据的裁减和离散化
  
  1.1基因表达数据的裁减
  基因表达数据是通过基因芯片实验获得的。通常基因表达数据以矩阵形式保存,矩阵第i行对应于第i个基因,第i列对应于第j个实验样本,而矩阵的每个元素aij记录了第i个基因在第j个样品中的表达水平。
  在基因数据中,有一部分基因表现的特征在不同类别中差别不明显,被称为不相关基因,因为不相关基因对分类不起作用,所以可以裁减掉这些不相关基因。具体裁减方法是:先把一个基因的表达数据按照已知类别分组,分别计算每组数据的期望和方差。然后计算期望的最大值和最小值的差值,如果这个基因各个类别的方差值都小于这个差值,那么认为这个基因的特征表现在不同类别下是明显的,要保留这个基因,否则认为是不相关基因,把它裁减掉。
  
  1.2 离散基因表达数据
  为了利用P-tree结构建立决策树,首先需要对给定的基因表达数据进行离散化处理。例如基因表达数据,根据对数据大小范围的观测,把它们离散成Io、l1、I2、I3四个部分,Io=[0,1]、I1=[1,2]、12=[2,3]、13=[3,4],每一部分用一个二进制比特串表示,设Io=00,I1=01,I1=10,I3=11。通过这样的离散化处理,表l中的基因表达数据转变成表2中的形式,这样就可使用P-tree结构表示基因表达数据了。
  PTMDT方法基于P-tree结构,结合决策树实现了对基因表达数据的分类。使用P-tree结构的目的主要有两点。第一,使用P-tree结构计算信息增益时只需使用P-tree的AND操作,AND操作速度快,减少了建立决策树的时间;第二,在使用P-tree结构建立决策树的过程中,不需要重复扫描数据集获得决策树中间结点包括的子数据集,这是因为和树中结点相对应的P-tree就表示了这个结点包含的数据集,即P-tree中表示为1比特的位置对应的数据就是被该结点包含的数据。
  
  决策树是数据挖掘分类常用的一种方法,决策树中的每个非叶结点选择具有最大信息增益的属性作为测试属性。使用P-tree表示的数据,可以通过如下方法计算一个属性的信息增益值。假设Bo是类别属性,B1,B2,B3是非类别属性.决策树中的每个结点都存储相应的决策路径信息,即存储从树根结点到本结点所经过的决策属性和相应的属性值,如图l中结点N09的决策路径是“B2,,0011,B3,1000”。使用RC表示P-tree根结点的数值。对于给定决策路径B[1],V[l],B[2],V[2],…,B[t],V[t]的结点N,结点N对应的P-tree使用下面的公式计算结点N的I(P)
   在构造决策树时,首先计算每个基因的信息增益值,选择具有最大信息增益的基因作为决策树根结点的测试属性。根据这个基因所有的属性值,把结点划分为多个孩子结点,然后递归地计算每个孩子结点。
  针对单决策树分类精度低的问题,PTMDT方法采用了多决策树分类方法。构建多棵决策树时对树根结点决策基因的选择是依照从最优逐渐递减的原则,即第一棵决策树选择信息增益最大的基因作为根结点的决策基因,第二棵决策树选择信息增益第二大的基因作为根结点的决策基因,以此类推。不同的决策树对同一测试数据可能得到不同的分类结果,取出现次数最多的类型作为测试数据的分类结果。
  
  3 实验结果
  
  为了验证PTMDT方法的有效性,实验应用small roundrole-cell tumors(SRBCT)数据集进行,其中包含63个训练样本和25个测试样本,每个样本包含2303个基因表达值,分成四个类别:EWS(23),RMS(20),NB(12),BL(8)。
  对63个训练样本,PTMDT方法的训练精度是100%。表3是用PTMDT方法对20个测试样本进行多决策树分类的时间和精确度,其中运行时间是指PTMDT方法开始运行直到得到最终分类结果总共花费的时间。
  给出了PTMDT方法与基于SVM的OVA方法、TSS方法的运行时间和分类精确度的比较。从比较结果可知PTMDT算法在运行时间方面明显优于OVA和TSS方法,在精确度方面接近TSS方法,略高于OVA方法。
  
  4 结束语
  
  文中提出了一个基因表达数据分类方法PTMDT。利用p-tree结构,使得构建决策树的时间大大缩短,并结合多决策树技术,提高了分类的精确度。从实验结果可看出,PT-MDT方法与目前已知优秀分类基因表达数据方法相比,具有良好的分类精确度,并且运行速率较快。
其他文献
【摘要】新课程改革背景下,综合与实践活动的开展开始受到了更多的关注,广大教师要明确活动的重要意义,结合教学实际情况,精心组织相关活动,同时为了确保活动获得更好的效果,还要注重信息技术的有效融合,引导学生更好地参与探索研究,促使综合素质能力的发展。在小学数学综合与实践活动开展的过程中,教师要注重精心组織设计,可以运用多媒体、微课等手段激发学习兴趣,还可以创建综合实践活动网络平台,这都有助于增强活动的
近期,我的合作搭档换成了一名四十几岁的女性。她业务能力还行,但是特别爱“八卦”,还有撒谎吹牛的坏毛病。比如,她总是把自己的人脉说得很广,但等到需要的时候,她又找各种理由搪塞,一度影响工作进度。我该怎样与她相处?  你对于合作搭档的判断之所以出现一些矛盾,是因为她在职场中和生活中的表现并不一致。在职场中,她的业务能力還行;在生活中,她特别爱“八卦”、喜欢撒谎吹牛,但这只是个人缺点,并不是原则问题。换
【摘要】词汇是语言中最不可或缺的一个组成部分。在英语这门语言中,词汇同样是最为基础也是最为核心的构成要素。高中英语词汇教学的质量,直接影响高中英语教学的效果。英语词汇的有效教学方式可以通过合理运用语境来实现。本文主要对基于语境的高中词汇教学进行分析探讨。  【关键词】词汇教学;语境;高中英语  英国著名语言学家威尔金斯曾说:“Without grammar very little can be c
“科技教育创新学校奖”(School of Distinction Award)由英特尔公司在美国设立,奖励在科学和数学教育方面有出色成绩的美国中小学校。为引进全球优质教育资源,完善创新人才培养环境,自2010年第25届创新大赛开始,英特尔(中国)有限公司与全国青少年科技创新大赛组委会合作开展“十佳科技教育创新学校”评选活动,每年选拔和奖励10所在科学教育中有出色成绩的中小学校,并在全国创新大赛终
对于刚出校门的年轻人而言,最需要找的一定是职业设计师,但如果你已步入中年,那么,你可能需要一位辞职设计师。  岁末年初,有的人收获颇多,职位与银子同涨;有的则原地踏步,挣的钱还不够花。春节一过,家庭的重负、外界的诱惑会使一部分中年人想通过跳槽来改变生活。辞职设计师,就能帮你找到“柳暗花明”的“又一村”!    叶小梅:“辞职设计”  不可或缺    叶小梅从事辞职设计已经一年多了,她之所以选择了这
李萌和他随团到湘西旅游。一个团基本上都是年轻夫妇,导游小姐开玩笑说,我们这个团,是蜜糖做的哦。李萌听了,倚到他的肩上,笑。  他们去峡谷漂流。奔流的溪水中搭一浮桥。导游说,这儿是考验爱情的地方。游戏是这样玩的,男人背女人过河,如果彼此心有灵犀,就能顺利踩过浮桥过河去。大家很开心地玩起来,只有他不肯。他看着浮桥说,两个人一起走过去不是更稳么?  结果,全团的妻子中只有李萌一个是被冷落的。李萌看着那些
一座被曹操盗空的墓  “怎么是空的?”或许每个沿着墓道徐徐走下梁孝王墓的人,心中都会升起这样的疑问。  其实早在梁孝王尸骨未寒的东汉三国时期,这就已经是一座空墓了。而破坏梁孝王墓的第一人,是历史上一位赫赫有名的大人物——曹操。  《水经注》里记载,梁孝王墓“斩山为椁,穿石而藏”,它位于芒砀山群的保安山上,由整座山开凿而成,外面是山体坚硬的巨石,唯一的墓道口又以上千吨的巨型条石封堵,在古代要想打开陵
去四川成都之旅,我和老公计划了好一阵子。因为我和儿子都没有见过“真正”的大熊猫,所以这一次的旅程,我们也不挑选“高大上”的目的地,而是选择了天府之国——成都,和大熊猫零距离接触。  在成都随着旅行团逛了一整天,第二天,便是重头戏——去成都的大熊猫繁育基地。一路上,儿子十分兴奋,在巴士上便开始表演“功夫熊猫”的经典桥段,引得旅友们一阵欢笑。到了景区,天气还留有几分余热,那些大大小小的熊猫们都在呼呼大
今年的一天,我和几个朋友相约去郊外爬山。行至一路口,前面出现了两条路,一条是平坦宽阔的大路,一条是逶迤崎岖的小路。正当我们不知如何抉择时,一位住这儿的长者告诉我们,这两条路都可以通向山顶,但小路险阻重重,很不好走,长者建议我们走大路。  我们认为大路虽省力省时,但不好玩。小路虽险,但风光绮丽。出于一种猎奇览胜的心理,我们执意要选择小路。长者关切地说,小路少有人走,一些路段可能被草木所淹没,你们又不
【摘要】本文针对网络文化、碎片阅读等现象对当今学生思想的不良影响,新城小学在“5R”深度阅读的实践中引领学生开展共读《三国演义》,分别从“研思路脉络,学习领会恢宏气概”“研经典故事,领会博大的思想内涵”“研人物,学习优秀的精神品格”“研谋略,培养创新思维”“研战役,学大无畏的英雄气概”这“5R”引领深研细读,高效吸收,为涵养学生的品德提供肥沃的土壤。  【关键词】“5R”;深度阅读;涵养;品格与智