Machine Learning Approaches for Drug-Target Intera

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wytlxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物靶点相互作用(DTI,drug-target interaction)的准确识别是药物发现过程中一项关键而具有挑战性的任务,对患者和制药企业都有着巨大的益处。传统的DTI湿室实验成本高、耗时长、劳动强度大,因此建立计算方法及时预测潜在的DTI是非常必要的。幸运的是,使用计算方法可以识别新的相互作用(药物靶点对),并加速药物再利用的过程。在本论文中,具体研究了基于现有药物先验知识及其实验确定的靶点来识别新的相互作用的技术。此外,本文工作还发现并解决了DTI预测中的主要问题。在解决了这些问题后,能够提高预测性能,并优于其他方法。
  迄今为止,人们提出了多种计算技术来简化药物的发现过程,但仍有大量的相互作用尚未被发现。此外,在实验中类不平衡是一个巨大的挑战,它会显著降低分类的准确性,而这一问题还没有得到有效的解决。目前,药物靶点特征及其相互作用的数量也在不断增加,使得传统的计算方法无法进行预测和分析。此外,精确的相互作用也依赖于负性药物靶点对,因此建立一种用来产生有效负性对的技术是有意义的。
  第一,由于药物靶点对没有有效的特征表示,DTIs预测方法很难发现靶点或药物之间的相互作用。为了预测相互作用,本文提出了一种基于药物化学结构和蛋白质序列的高通量DTI识别计算模型。具体而言,蛋白质序列是通过位置特异性评分矩阵(PSSM)-Bigram、两亲性伪氨基酸组成(AM-PseAAC)和代表进化和序列信息的二肽PseAAC描述符来提取的。药物的化学结构用能够描述功能片段或基团的存在性的分子亚结构指纹图谱(MSF)来表征。来表征。此外,采用SMOTE过采样技术克服了数据集的不平衡问题,并采用XGBoost算法作为对DTI进行预测的分类器。实验分析表明,该模型在ROC(auROC)曲线下面积方面优于同类方法。
  第二,有些DTI数据集中用于表示药物和靶点的特征集具有高维性,这可能导致预测任务的运行时间更长,并导致预测性能下降。因此,探索一种新的鲁棒模型来获得降维特征对于有效预测具有重要意义。在本文中,通过引入基于支持向量机的多核学习(MKL)和多种降维技术,提出了一种新的用于DTIs预测的多标签算法。为了计算和选择排名靠前的药物和靶点,本文研究了一种基于聚类的分子相似性(CluMS)算法。从给定的药物或目标特征开始,将三维降维技术应用到药物目标特征提取中。最终,将基于多核函数的学习器与降维特征一起训练,并融合其预测分数得到最终结果。
  第三,类不平衡是所有DTI数据集中普遍存在的问题。因此,本文提出的方法利用聚类欠采样(CUS)技术来管理数据平衡,并开发了一种新的特征消除器EnsRFS来从药物蛋白数据集中提取最佳特征,提高了预测效率。更具体地说,每一个药物分子都被转化为亚结构指纹,其中保留了某些化学结构信息的功能片段。对于蛋白质序列,利用不同的描述符来表示其进化信息、序列信息和结构信息。最后,根据预测概率得分引入新的药物靶点相互作用样本,为进一步的药物开发提供激励。
  第四,差分表示偏差对DTI预测方法的预测性能是有影响的。具体地说,差异表示偏差是指药物(或靶点)相对于阴性数据在阳性训练数据中出现的程度。为了解决这些问题,本文研究了一种MMIB技术来处理数据集中的大多数和少数实例,并利用LASSO模型将特征转换为低维空间。此外,在本文的工作中,训练了具有平衡和简化特征的卷积神经网络算法来精确预测DTI。
其他文献
脑肿瘤是一种严重威胁人类健康的疾病,由于其大小、形状和位置的明显不同,使得对脑肿瘤组织类型的准确表征和定位在脑肿瘤诊断和治疗中起关键作用。核磁共振成像(MRI)因为具有良好的软组织对比和非入侵的特点,致使基于MRI的脑肿瘤分割研究成为热点。肿瘤组织的手动分割繁琐耗时,并且会受到分割者主观意识的影响,因此如何高效、精准且全自动地分割脑肿瘤成为研究重点。  针对脑肿瘤图像分割领域存在的数据集小、类别失
随着5G、汽车电子、AI、物联网等下游应用领域的进一步兴起,集成电路(IC)产业蓬勃发展,互连布线是集成电路发展中的一项焦点工作。低介电常数(low-k)互连薄膜的应用可缓解IC互连中出现的RC延迟、串扰增强、功耗增大等问题,但是low-k材料自身存在机械特性差、界面特性差、热不稳定性等问题。针对这些需要被检测的参量,由于low-k材料质软、易脱落等问题,传统的检测方法难以满足low-k薄膜的特性
学位
近年来,信息泄漏事件频发,信息安全已成为国内外广泛关注的焦点。存储器作为各类信息的载体,保障其安全的重要性不言而喻。然而,以Flash存储器为代表的固态存储介质,不仅面临来自外部的各类物理攻击威胁,自身还存在数据残留安全隐患。为保障固态存储器存储信息安全,本论文针对其面临的两类安全问题,开展抗物理攻击安全存储关键技术研究。在物理攻击防护技术研究方面,提出了两种有源屏蔽防护层生成算法,并设计了不同结
激光雷达(Laser Detection and Ranging System, LiDAR)因其高精度3D成像能力在无人机、机器人和汽车辅助驾驶等领域广泛应用,脉冲激光雷达在远距离探测中更有优势。为满足应用需求,脉冲激光雷达系统正趋向集成化、小型化、固态化、高精度以及低功耗方向发展。本文通过研究脉冲激光雷达典型信号处理电路架构的特点,提出了基于时间数字转换电路(Time to Digital C
学位
生物地理学优化算法(Biogeography-Based Optimization,BBO)是通过研究生物有机体在空间和时间上的自然活动而构造出的一种优化算法,它属于一类新型群智能优化算法。BBO算法通过独特的迁移算子实现种群内的信息交流,并使用变异算子来增加种群的多样性。两种算子的结合促使算法具有寻优速度快、开发能力强的优点,且算法在解决复杂组合优化问题上优势明显。  随着我国航天事业的飞速发展
学位
高光谱遥感作为遥感领域的前沿技术,在农业、地质、军事和医学等领域得到了广泛的应用。由于高光谱图像具有光谱维度高、光谱信息丰富、空间及谱间相关性强、样本标记量少的特点,使得高光谱图像分类面临诸多挑战。为有效利用高光谱图像丰富的空、谱信息以提取更具鉴别性的图像特征,本文研究并实现了基于稀疏低秩理论和深度学习的高光谱图像分类。  论文的主要研究工作如下:  1.基于超像素引导的稀疏低秩判别嵌入高光谱图像
近年来随着遥感技术的快速发展,遥感影像数据量呈井喷式爆发。遥感影像数据作为遥感应用的基础,在气象、环境、农业等领域得到了广泛的利用,并产生了巨大的经济效益。围绕遥感数据获取、处理、应用等环节形成了庞大的产业链。处在产业链上游到下游的不同用户和行业机构需要在多个环节中协作加工和利用遥感影像数据。由于不同的机构间相对独立、关联性弱、遥感影像数据共享程度低,遥感机构间缺少安全可靠的遥感影像数据共享支撑平