基于约束选择的基因表达数据半监督聚类算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xliang677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据蕴含着丰富的基因活动信息,分析基因表达数据中隐含的模式对生物基因功能理解及推断、基因调控机制研究等具有重要意义。随着DNA微阵列技术的发展,产生了数量庞大的基因表达数据,如何对海量的基因表达数据进行有效分析及理解已成为生物信息领域的一项重要挑战。聚类是一种重要的无监督数据挖掘方法,通过基因聚类有助于发现共表达基因,进而推断未知基因的功能。在聚类过程中融入先验信息能够有效提升聚类效果,相比于类标签信息,先验信息中的成对约束更易获取,因此应用更为广泛。现有的基于成对约束的半监督算法或直接使用已知标签信息生成成对约束,或根据数据特性等挖掘成对约束。实际应用中,基因表达数据通常为无标签数据集,自动挖掘获得的成对约束不可避免地存在噪声约束,即与真实簇信息不符的成对约束,严重影响基因表达数据半监督聚类的性能。针对这一问题,本文提出了聚类和约束选择一体化求解的基因表达数据多目标半监督聚类算法。(1)本文从剔除噪声约束,选择有效的成对约束作用于半监督聚类过程的角度出发,提出了基于约束选择的基因表达数据多目标半监督聚类算法。算法首先根据密度跟踪法获取初始成对约束集,其次将其引入到具有约束违反惩罚项的目标函数中实现半监督聚类。为实现NSGA-II框架下聚类结果与约束选择的协同优化,提出了一种约束选取与聚类中心的混合编码,在多目标进化过程中选取适用于聚类的成对约束,实现了监督信息与聚类结果的联合优化,进而有效提升了基因表达数据的聚类效果。(2)将基因生物学知识融入到基因表达数据的半监督聚类过程中,有助于进一步剔除噪声约束。鉴于此,本文提出了融合基因本体的基因表达数据多目标半监督聚类算法。算法首先从基因本体知识库得到基因的功能相似度,并生成基因本体成对约束集,其次综合考虑基于基因表达数据和基因本体的成对约束信息,改进半监督聚类算法中的约束违反惩罚项权重,最后通过所提混合编码实现生物学知识指导下的约束选取与聚类中心的协同优化。多个基因表达数据集上的实验结果表明,所提算法能够通过融合生物学信息从初始约束集中进一步优选成对约束,得到了更为准确且生物学显著的聚类结果。
其他文献
随着社会对定位导航、虚拟现实、无人驾驶需求的日益增高,其中一个核心问题同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)受到了越来越多的关注。实现SLAM的第一步是通过传感器获取环境信息,例如使用激光雷达获取三维点云,使用彩色相机获取彩色图像。每一种数据都有自身的优势和劣势。因此,利用多模态数据实现更高精度的定位和建图是目前SLAM领域的重点
学位
自主代客泊车是一种区域内低速无人驾驶技术,可以提供无人干预的按需泊车服务,不仅能够解决泊车对司机而言操作困难的问题,也能够极大地节省出行时间,是目前极具前景的无人驾驶技术领域。但目前辅助泊车规划算法环境适应性不足,而开放道路路径规划算法在泊车场景中的效率较低。本文针对现有算法的不足,提出了一种改进的基于图搜索的自主代客泊车场景下运动规划算法,该算法允许在给定静态道路语义地图的结构化停车环境中进行全
学位
四旋翼飞行器由于具备重量轻、灵活度高和结构简单的优势而被广泛用于侦察勘测和短途运送等领域。由于其本身属于复杂的高阶非线性系统,具有强耦合和欠驱动特性,所以四旋翼的轨迹跟踪控制非常具有挑战性,针对四旋翼飞行器系统进行高性能控制算法设计具有重要意义。为此,本文结合迭代学习原理和滑模控制方法,探讨了四旋翼飞行器在受到外界扰动与转子发生故障状态下的轨迹跟踪控制问题,主要研究内容如下:本文介绍了四旋翼飞行器
学位
语音降噪和语音增强是语音信号处理领域的重要研究内容,基于麦克风阵列的降噪研究也逐渐成为研究热点。各行各业的正常运作都离不开语音通信,而语音信号的质量决定着通信能否正常进行,因此消除噪声、增强语音在其中发挥着至关重要的作用。随着公共交通的不断发展,乘客信息系统对语音通信的需求也在逐渐增加,对麦克风阵列降噪的应用也成为目前的发展趋势。由于目前乘客信息系统多依靠单麦克风采集音频,并且缺少对语音信号的降噪
学位
目的:探讨运用当归六黄汤从阴虚火旺辨治甲亢的效果。方法:通过向陆俊锋主任跟诊学习并结合熟练运用中医基础理论知识,研究陆主任治疗阴虚火旺型甲亢的方法。结果:研究认为阴虚火旺贯穿甲亢始末,运用当归六黄汤随证加减联合西药治疗甲亢疗效显著。结论:当归六黄汤随证加减与西药联合治疗甲亢,可迅速缓解患者症状,缩短病程,改善患者体质。
期刊
无人机和地面移动机器人的运动能力与作业方式各不相同。无人机能够从空中视角快速完成大范围环境感知及地图构建,但其续航能力有限;地面机器人载荷高、续航时间长,但其在复杂场景中的通过能力受限。因此,本文对无人机室内外场景下拓扑地图构建及其引导的移动机器人导航工作展开研究。针对无人机室内建图问题,本文提出一种基于截断距离场和稀疏拓扑图的室内建图方法。在室内三维重建算法设计中,设置截断距离以减少网格数量和计
学位
结晶过程是获取药品和化工产品的重要手段,如将饱和高温反应溶液进行降温,在冷却过程中就会析出晶体。为了得到期望的晶型产品,需要实时监测结晶过程的晶体生长形态和尺寸。本文以实时监测L-谷氨酸(LGA)冷却结晶过程为应用案例,针对嵌入式传感器的测量误差问题,研究非嵌入式显微图像监测技术,实现在线实时检测晶体尺寸和粘连度,并且开发了易于操作的图像分析算法运行软件及其人机交互界面。首先针对晶体边缘模糊、对比
学位
变循环发动机结构复杂、循环模式多变,具有较强的非线性特性并且运行于更加宽广的飞行包线中。研究多控制回路间子系统耦合、发动机性能退化、模型不确定性、外界干扰等影响下的变循环发动机扰动抑制问题具有重要意义。为了实现变循环发动机的多变量自抗扰控制,解决高频传感器噪声带来的扩张状态观测器性能下降问题,本文依托“某发动机多变量控制算法研究与验证”项目,面向某型变循环发动机,开展改进的扩张状态观测器研究及多变
学位
无人自行车是一个典型的欠驱动系统,具有静态不稳定性和动态稳定性的独特性质,对无人自行车系统的研究,有助于促进欠驱动系统控制理论的发展。同时,无人自行车可作为一种智能交通工具,具有实际的应用场景。因此,本文围绕着无人自行车系统开展控制器设计、路径规划和轨迹跟踪等方面的研究,主要研究内容包括:首先,根据无人自行车的动力学模型,本文设计了基于扩张状态观测器的变论域模糊滑模控制器。该控制器使用变论域模糊控
学位
时间序列存在于社会的各个领域,特别近几十年来,时间序列数据出现了爆炸式的增长。同时,基于时间序列数据开展的时间序列预测研究也受到越来越多的关注。本文以多元时间序列为研究对象,通过因果分析方法探究变量间的关系,并从中筛选出与目标变量最相关的特征集合,从而完成对复杂系统的分析和预测。本文研究内容如下:针对实际的时间序列中存在无关变量和冗余变量干扰的问题,本文提出一种基于特征选择和因果分析的两阶段因果网
学位