基于机器学习的药物筛选辅助方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:szlsh88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们的生命健康始终被疾病所威胁,新型药物研发是攻克癌症、慢性病等医学难题的关键。作为药物研发的起点,药物筛选辅助技术利用计算机从海量化合物中快速筛选出特定靶标候选药物分子,可以有效缩短研发周期,降低研发成本。随着数据挖掘技术的兴起,利用机器学习技术提升药物筛选的效率与效果已经成为当前研究的重要问题。为此,本研究利用机器学习技术对药物筛选过程进行了优化,针对药物筛选过程中活性药物分子的发现和活性药物分子的成药性判定两个关键问题,结合机器学习中的集成学习、多标签分类算法,分别构建了药物靶标活性预测模型和成药性判定模型,并通过智能优化算法挖掘表现最好的药物分子结构信息。最后,基于Drug Bank数据库收集的抗乳腺癌药物数据进行相关实验,验证了本文方法的有效性和先进性。第一,为进一步提高药物靶标活性预测的准确性,本研究提出了一种基于集成学习的预测模型。首先,采用递归特征消除进行特征选择,并用SHAP方法计算特征的重要度,从而在输入上提升了模型的可解释性和预测精度。其次,通过对10种学习器的异质性分析及性能对比,为Stacking集成模型选取最佳的初级学习器和元学习器组合。最后,利用一种自适应步长的萤火虫算法进行参数优化,进一步提升模型的预测能力。实验结果表明,该方法明显优于其他流行的机器学习算法。第二,为充分利用标签之间的关系,本研究提出了一种改进的分类器链(CC)模型,以提升对药物多种成药性质的判定能力。首先,通过Pearson相关性分析,发现药物成药性质之间存在潜在联系。然后,针对CC模型的随机链序造成模型性能低下及不稳定问题,提出一种标签序列优化策略,在共现分析的基础上构建标签共现矩阵,通过量化标签贡献程度,以贪心思想确定标签在CC模型中的训练顺序。实验证明,该方法优于其它11种流行的多标签分类算法、CC模型以及基于其改进的LOCC模型。第三,基于上述两个模型,提出一种基于多目标优化的药物分子最优特征区间发现模型。以靶标活性值最高和满足成药性质最多为优化方向,采用NSGA-Ⅱ算法进行求解,并对其交叉算子进行改进以提升算法的寻优能力。通过实验,共找到活性值和成药性质均较优的虚拟药物分子236个,并通过数值统计分析确定了重要特征的最优取值区间,从而为后续药物分子结构的设计提供辅助支持。综上,本文利用机器学习技术,建立靶标活性预测以及成药性质判定模型,并建立多目标优化模型挖掘最优药物分子的结构信息,从初步筛选、精细筛选、挖掘药物结构信息三个方面共同提升药物筛选辅助方法性能,对降低新型药物研发成本,提升研发效率具有一定的指导作用和现实意义。
其他文献
近些年,共享房源行业的大规模发展带来了房源数量的激增,在竞争日益激烈的市场环境下,房东可能无法准确地自主定价。为确保房东以及平台的收益,合理预测共享房源平台中海量房屋的租金价格成为重要的研究问题。然而,共享房源的个性化程度较高,并不能直接参照酒店行业选取房源特征,为解决共享房源价格预测问题带来了巨大挑战。因此,为帮助房东提高自主定价的准确性,本文在构建共享房源价格影响因素模型的基础上,提出了一种基
学位
在线知识社区是具有开放性和自组织性的线上虚拟组织,已成为知识建构和共享的主要平台。随着人工智能的发展,机器人在社区中得到广泛应用,通过与人协作的方式共同参与知识建构。在线上人机协作的背景下,如何寻找执行任务的替代流程以充分利用人机协同效应是组织面临的关键问题。然而,当前研究中缺乏从人机互补增强视角考虑如何优化现有的知识建构流程以提升协作绩效。因此,本文从流程视角出发,考虑人类和机器人的互补优势,研
学位
风险社会背景下,食品安全关系到消费者的身体健康和社会整体的稳定和谐,受到全世界的重点关注。与此同时,伴随新兴技术的发展,社会系统之间的耦合程度提升,各类规模较大的突发事件往往不是独立爆发,呈现明显的级联特征,各级联事件之间的驱动因素、影响因素相互交织,导致负面影响不断累积放大。为响应我国防范化解重大风险的号召,基于级联风险视角对食品安全事件进行分析,并进一步构建应急决策模型,既有助于政府及应急管理
学位
随着大数据时代的到来,银行在越来越多的客户信息中以传统电话营销的方式寻找有价值的客户无异于大海捞针,需要投入很多时间成本和人力资源。因此,如何对海量客户进行精准分类成为银行电话营销的关键。机器学习方法因其强大的数据挖掘能力被广泛应用,在分类问题上表现出显著的性能优势。鉴于此,本文采用改进后的机器学习方法对银行电话营销客户数据进行分类预测,以图提高银行电话营销的命中率。为进一步提高银行电话营销预测的
学位
城市建筑火灾是一类极具破坏性的突发事件,对人类生命财产造成巨大损失。在火灾事故发生时,第一响应人员的派遣直接关乎事故整体救援效果,在初次派遣时刻如何准确评估救援需求、高效做好应急响应工作是消防部门关注的重点问题。历史火灾数据记录了各个火灾事故的应对方案,在火灾事故派遣问题上具有重要参考价值,但当前鲜有研究对其中救援人数规律进行挖掘。因此,本文引入机器学习方法对第一响应人数需求预测问题展开研究,主要
学位
十九大报告强调,面对空气污染要全民共治、源头防治,但在污染物浓度水平不清、对室内成员作用结果不明的室内情境中,防护和治理都难以有效进行。与传统的污染成分分析不同,本文关注室内空气质量对个体感知与认知的作用过程,从以教研室和研究生群体为要素的实验出发,重点探索室内空气质量对研究生认知表现的影响机理。现有文献建立了室内环境与室内成员舒适度间的定量联系,讨论了室内空气污染物含量可能对工作绩效产生的影响,
学位
移动应用程序(Mobile Apps)遍布生活的各个方面,市场前景广阔。但是由于产品趋于同质化,且用户转移成本低等原因,App研发项目失败率较高。作为App诞生的重要基石,App的设计在根本上决定了其能否找到创新突破口并迅速满足用户需求,从而更好服务用户,站稳市场。App设计团队的成员们拥有类别各异的专业知识和技能,通过充分的交流和互动完成既定任务。而互动动机是影响成员互动过程的重要因素。无论是以
学位
近年来,我国建筑业得到了快速发展,但是随之而来的是频发的建筑安全事故,造成了不少的人员伤亡与经济损失,在一定程度上影响着社会的和谐稳定与经济发展。而其中高处坠落事故由于发生频率高、导致死亡人数多,被称为建筑业“五大伤害”之首。因此分析高处坠落事故原因之间的关系,从中找出最可能引发事故的关键因果链,并根据关键因果链制定具有针对性的预防措施及安全管理策略,对于降低高处坠落事故风险,提升建筑安全水平有着
学位
当前,我国果蔬农产品“最先一公里”存在人工分级效率低、预冷服务不及时等问题,果蔬产地分散、中小规模的特点使得采后流程化处理难以实施。新兴的移动式分级、预冷设备应用于田间地头虽能解决上述问题,但分级和预冷环节存在断链,需要将移动式分级和预冷资源进行协同调度以减少服务间隔时间,进而保证果蔬质量,降低腐损率。基于此,本文结合果蔬是否具有强时效性特点构建了两种情景下的协同调度模型,一种是针对保质期较长的耐
学位
自2008年我国提出通过“化工入园”来引导化工产业集聚化和规范化发展的战略后,我国化工行业迎来了高速发展,进而促使了一大批化工园区的形成。如今,化工园区的安全稳定发展对于我国经济平稳运行起到了重要支撑作用。然而化工行业本身属于高危险等级行业,园区内储存有大量危险化学品,这些危险化学品具备易燃、易爆、毒性、腐蚀性等特性,并且广泛存在于生产、加工、运输的各个环节。近些年来由危险品引发的火灾、爆炸、毒气
学位