概念格扩展研究及在生物基因数据上的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:mumu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据分析和知识获取的有效工具,概念格在大数据背景下具有广阔的发展空间。通过高效挖掘数据深层信息,快速建立数据之间的联系,可以满足多种领域的任务诉求。随着生物基因测序技术的发展,研究者意识到不能仅仅局限于获取生物基因数据,探究其中蕴含的特征规律也十分重要。因此,寻找有效挖掘和分析生物基因数据的方法成为当前的研究热点。分析现有的数据挖掘方法,发现其应用于生物基因数据仍存在以下不足:数据挖掘过程中侧重于数值,忽略基因之间依存关系,挖掘出的信息复杂庞大,表示出的基因之间联系较弱;生物基因数据不仅包含关联程度高的目标基因,而且存在大量不相关冗余基因,通过常规方法选择高相关目标基因,去除低相关冗余基因的效果不好;数据缺失是生物基因数据分析过程中不可避免的问题,现有的缺失值插补方法在大规模数据中插补效果不佳。针对以上不足,将概念格理论融合到现有的数据分析方法中,从挖掘基因依存关系,去除冗余基因数据,提高基因缺失值插补效果三个方面出发,提出相应的改进方法,并在生物基因数据中验证其有效性。本文具体研究内容如下:(1)针对生物基因数据处理过程中忽略基因依存关系,关联表示不清晰的问题,提出基于K-means聚类逆模糊变换(K-means Cluster Inverse Fuzzy Transform,KIF)的基因概念挖掘方法。属性依存关系可以衡量基因之间的依赖程度。引入K-means聚类逆模糊变换计算基因的属性依存关系指标,能够快速获取关键基因。以关键基因为基础,构造具有属性依存关系的概念格。将KIF方法应用于急性髓性白血病(Acute Myeloid Leukemia,AML),甲状腺乳头癌(Papillary Thyroid Carcinoma,PTC),直肠癌(Colorectal Cancer,CRCA)和前列腺癌(Prostate Cancer,PCa)数据集中,均可以有效挖掘基因依存关系,构建关系清晰的基因概念知识网络。(2)针对生物基因数据中存在大量冗余基因的问题,提出基于谱聚类特征选择(Spectral Cluster Feature Selection,SCFS)的基因概念格约简方法。使用谱聚类对全局划分簇,在簇内选取强特征基因,通过特征重要性指标构建特征子集,保留与特征子集存在高相关性的基因,过滤低相关性基因。高相关性基因能够包含生物基因数据集中大部分有效信息,以此达到去除冗余基因的目的。利用特征选择选出的特征子集构造概念格,有效实现概念格约简。将SCFS方法在癌干细胞(Cancer Stem Cell,CSC),膀胱癌(Bladder Cancer,BC),前列腺癌-HOXD13(Prostate Cancer,PCa-HOXD13)和乳腺癌巨噬细胞(Breast Cancer Macrophages,BCM)数据集中进行实验,在去除冗余数据,约简概念格上均取得了良好效果。(3)针对大规模生物基因数据缺失值插补效果不佳的问题,提出基于概念格的多重插补法(Multiple Imputation Based on Concept Lattice,MIC)和基于概念格的主成分分析法(Principal Component Analysis Based on Concept Lattice,PCAC)。通过在数据完整的样本中构造概念格,获取基因之间的关联规则,应用于存在缺失值的样本中,通过缩小基因搜索范围,提高插补效果。将MIC和PCAC在急性髓性白血病,甲状腺乳头癌,直肠癌和前列腺癌数据集中进行实验,结果表明MIC和PCAC能够在大规模基因数据中有效提高缺失值插补效果。
其他文献
随着生活水平的提高,人们的物质需求基本得到满足,安全需求日益凸显,建立温情社区,是提高居民安全感的有效方法,在老旧社区改造过程中,注重空间安全感的营造,能够加强居民之间的情感联系,更能提高居民的幸福感。论文对曲阜市沂河小区进行了多方面调研,使用针对该小区居民的随机问卷、深入访谈等方法,对沂河小区的物质及非物质现状进行调研。研究发现沂河小区物质环境破败、公共空间不足、物业管理混乱、居民类型复杂、居民
情感分析作为挖掘文本语料中用户情感倾向的方法,在当今社会的各个领域有着广泛应用。随着计算机技术的发展,人们不再满足于获取文本语料的粗糙情感倾向,而是希望得到基于属性或功能的细粒度情感倾向。因此,细粒度情感分析逐渐成为该领域的热点研究内容。数据规模扩大,情感语料库构建为词嵌入神经网络应用于细粒度情感分析提供了有利条件。基于双向Transformer编码器模型(Bidirectional Encode
随着物联网(Internet of Things,IoT)的发展,终端设备的数量也在迅速增加。设备会产生大量数据,这些数据具有多样性、实时性等特点。为缓解传统的云计算压力,边缘计算应运而生,它将数据处理下沉至设备边缘附近,可以实时处理靠近终端用户的数据,并且智能分流云任务。区块链技术的去中心化、防篡改和匿名性可以为边缘计算提供新的可信计算环境,同时边缘计算为区块链的可扩展性提供了可能,有助于打破区
高通量测序技术的发展产生了大量的生物组学数据,这些数据中往往包含着生物发展过程中的重要信息。单细胞RNA测序(Single-cell RNA sequencing,Sc RNA-seq)技术的快速发展使生物学家们可以在分子水平上对基因表达数据进行研究。Sc RNA-seq数据的出现也为组学数据的异质性研究提供了可能,对这些数据进行挖掘研究对疾病的诊断、治疗、预防以及探索细胞的分化过程有着重要意义。
随着比特币等各种加密货币以及应用技术的发展,区块链开始在诸多领域中受到越来越多的关注。区块链作为一种分布式账本系统,如何确保在互不信任的节点之间达成一致是它的一个关键问题。而作为区块链的一个重要组成构件,共识算法可以解决一致性问题,且其效率将直接决定了区块链系统的性能。DPoS共识算法因其相对较高的共识效率更易进行优化以满足商业应用环境的要求,从而拥有实际的应用价值与良好的发展前景。然而,在现有的
由于无线传感器网络(Wireless Sensor Networks,WSNs)自身能源的有限性以及网络环境的日益恶化,网络安全面临严峻挑战。攻击者冒充合法用户访问无线传感器网络、攻击网络内部节点、截取公开信道上传输的明文数据,这三种攻击行为给网络带来极大的危害。国内外学者在无线传感器网络安全上做了大量研究工作,但往往只针对单一的攻击行为展开研究。因此,针对上述三种攻击行为,本文从通信实体身份认证
大数据时代下,信息种类和数量急剧增加,信息过载日益突出。面对海量数据,用户难以高效地获得有价值的信息。在这种情况下,推荐系统应运而生。在推荐系统中,基于协同过滤的推荐算法被广泛应用。但是,在分布式环境下,传统的协同过滤算法存在不足之处,具体表现如下:(1)该类算法通常假设用于推荐的数据来自单一平台,并没有考虑在分布式环境下,数据往往分布在多个平台的现状,以及来自多个平台的数据在融合、集成中涉及的用
实训是学生进一步深入理解专业理论的重要环节,是掌握专业技能不可缺少的学习步骤。传统实训教学模式中,学生和教师间互动较少,学生课后复习时难以再现课上教学时的场景。教师对实训教学的效果不够清楚,学生的学习效率和教师的教学效率都大打折扣。除此之外,固定的实训地点和实训时间对学生有着诸多限制,他们难以自主选择自己感兴趣的实训课程随时随地的学习。为解决上述问题,本文设计并实现了一个在线实训研讨云平台。该平台
2020年高考后,山东省发布的《2020年山东省普通高校招生填报志愿指南》中阐述了一系列志愿填报及录取规则的改变,标志着山东省“新高考”进入实施阶段。新政策实行后,志愿设置和填报志愿的权限规则都有较大变化。其中,最大的变化当属取消文理分科,采取“3+3”选考模式。同时,志愿填报的模式由“院校+专业”转变为“专业+院校”,每位考生可填报志愿的数量从36个上升到96个。政策改变带来的影响包括2020年
随着人口老龄化以及肌体失能人群的增加,市场上出现了许多为人们提供肢体训练、位置转移、独立自理等功能的康复诊疗智能设备,为肌体失能人群提供康复诊断和训练理疗服务。但是,这些康复诊疗智能设备存在着诊断不精准、训练理疗效率低、诊疗数据无法积累、患者训练记录不完整等问题,同时,针对康复诊疗领域的现有平台功能大同小异、千篇一律,主要以数据存储与读取为主,并不能对数据进行更有效的利用。本文设计了一套既可以管理