【摘 要】
:
大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析,从中提取规律,上升为理论,“读懂”基因组的遗传信息,以便指导研究工作,对生物
论文部分内容阅读
大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数据的采集、整理、检索、分析,从中提取规律,上升为理论,“读懂”基因组的遗传信息,以便指导研究工作,对生物信息学提出了很高的要求,也对信息理论与技术提出了挑战。数据挖掘作为一种以数据库、统计学和人工智能学为基础的新兴技术,给生物学家提供了前所未有的数据分析工具,为基因和蛋白质信息的分析和提取提供了强有力的手段。 本文主要对基因表达数据、蛋白质序列数据的分类和聚类进行了研究。本文提出了蛋白质序列数据的分类算法,主要根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法,对每类数据挖掘得到的频繁模式进行类间裁减,用每类独有的频繁序列对测试数据进行分类。还提出了蛋白质序列数据聚类算法,它首先应用连续频繁模式挖掘算法找出频繁定长模式,然后对频繁模式进行裁减,利用剩余的模式建立新空间,把蛋白质序列数据在新空间上投影,计算序列间的相似矩阵,最后应用K-means方法进行聚类。还提出的基因表达数据分类算法中,首先利用基因表达值的期望和方差对基因进行裁减,把基因表达数据离散化,然后转变成P-tree的形式,利用P-tree结构的数据计算信息增益构建多棵决策树对测试数据分类。提出了一个并行计算基因表达数据聚类的方法,是一个基于KNN密度聚类的方法。首先把基因表达数据均分到服务器上,然后在各台服务器上分别计算基因的密度,求出核心基因,聚类核心基因,求得部分数据的簇中心点,客户机聚类各台服务器求得的簇中心点,计算出全体数据的簇中心点。实验结果表明所提出的算法是较优的。
其他文献
基本建设财务管理主要是指以国家建设项目的相关方针、政策、法律法规为依据,通过对基建项目各项施工活动资金支出的管理。目前,我国新城建设中的基建财务管理过程中仍存在一
土地资源管理工作内容非常的繁琐和复杂,近年来,在国内城镇化建设不断发展的进程中,土地资源科学、有效的使用逐渐成为社会发展的主要诉求,与此同时,土地资源管理的高效化、
富含亮氨酸重复序列的类受体蛋白激酶(LRR-RLKs)参与植物生长发育及对环境刺激应答反应的多种信号传导过程,在植物生命活动中发挥着重要功能。最新研究表明,LRR-RLKs在植物多种
手是人们日常生活和工作中最常用到的一个器官,而手在多数情况下缺乏保护,加上意外伤害时反射性的支撑,导致手较容易受伤。早期正确处理手外伤,对其功能和外观的恢复尤为重要。$$
谈高考化学试题题型与难度的关系浦高华,薛柯伟为深入研究高考化学试题中选择题型与非选择题型的功能、特点及相关性,全国高考化学命题委员会试题题型研究课题组于1993年4月在部分地
重视学法指导,切实提高学法指导的实效性北京市崇文区教研中心杨福海一、重视学法指导,切实提高学法指导的实效性(一)从完成教学任务的角度看:1.学法指导是语文学科教学任务之一。《
试谈新编高中历史教学大纲中世界近现代史教学内容的有关问题首都师大历史系叶小兵新编制的《全日制普通高级中学历史教学大纲》(以下简称"高中新大纲"),把世界近现代史定为文科限
在国家体育场修改初步设计中首次采用CAT IA软件,解决复杂建筑的空间建模问题;中厚钢板采用Q 345G J钢材,有效降低了用钢量;在进行大跨度结构计算与优化时,分别考虑了常遇地
目的:分析我国婚前医学检查现存主要问题,探讨提高婚检率、加强围婚人群婚育知识有效方式,为完善新形势下婚检服务模式提供依据。方法:通过对已有研究分析,总结我国婚检的现
目的:运用横断面观察的研究方法,探讨非痴呆型血管性认知功能障碍(脾肾亏虚、痰浊蒙窍证)与血尿酸水平的相关性。方法:本研究采用横断面观察的研究方法,选择2018年01月--2018年12月期间长春中医药大学附属医院本部、二部门诊及住院患者。利用认知量表MOCA、MMSE以及中医证候量表等,筛选出VCIND(脾肾亏虚、痰浊蒙窍证)的患者72例,并随机选取72例认知功能未见异常的脑血管病患者作为研究对照