基于稀疏学习和深度学习靶向GPCRs的配体虚拟筛选方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ping996115122xing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,各式各样的数据愈发趋于高维化、多量化。这种海量高维特征给数据挖掘和机器学习算法在自然语言处理、计算机视觉、基因工程等实际应用上带来了前所未有的挑战。大数据时代的海量数据与高维特征不可避免的带来“维数灾难”与“过拟合”问题,不仅会降低机器学习算法性能,还给计算过程带来指数级增长的时间复杂度和空间复杂度。因此,进行快速有效的特征筛选实为数据处理中的一项重要工作。若能用各种方法从原始数据集中剔除冗余和无关特征,从中获得最具代表性、最有研究意义的数据特征子集,仅在关键特征上构建模型,即可提升模型泛化性能,大幅降低运算所需时间复杂度和空间复杂度。本文提出一种融合高维扩展连接分子指纹(ECFPs)的LASSO稀疏筛选与深度神经网络的算法模型(Screening for lasso of ECFPs and Deep Neural Nets,SED),旨在预测配体分子生物学活性,识别与G蛋白偶联受体(GPCR)相互作用密切相关的关键子结构。SED算法由三个模块组成:(1)配体分子ECFP指纹生成模块,生成细粒度的高维特征,更好地表征配体分子;(2)LASSO特征筛选模块,采用LASSO算法获得稀疏解,对应ECFP中关键子结构,基于EDPP策略对特征筛选过程进行加速;(3)基于DNN回归模型的生物学活性预测模块,基于特征筛选出的关键子结构预测配体分子与对应GPCR的生物学活性。在16个GPCR数据集上对SED进行评估,结果表明SED在预测和解释配体分子生物学活性方面取得了优异性能,特别是配体分子样本不足的数据集。最后对筛选出的关键子结构进行特征回溯,给出通过SED得出的300维关键子结构的可视化具体实例。
其他文献
导电三维纳米多孔材料具有连续的韧带和孔道,其连续的导电韧带使得电子可以连续传导,因而具有良好的导电性;其连续的孔道,使得溶质分子可以有效扩散,因而可以快速传输溶质。
目的探讨噪声职业健康检查结论的相关问题,为GBZ 188—2014《职业健康监护技术规范》(以下简称《规范》)的修订提供参考。方法采用定性研究和文献回顾方法,从技术瓶颈与医学
目的研究视听元素在植入广告创意中的一些应用形式。方法从广告创意入手,运用广告学、影视广告学中相关原理,研究影视植入广告创意的一些手法,通过对中国近期具有影响力的电
油画风景写生课程是我国高校美术教学中的一门重要的专业基础课程。学生通过对自然的观察、分析、总结、提炼,以提高对色彩的认知和感受。在具体的课程教学中,教师要通过对构
在人类文明发展的长河中,中华文明从未中断,中国传统造物取得了巨大的成就,并得到不断的发展与传承。传统造物中,“物”是载体,承载着千百年来人民生产生活及其他社会活动中的智慧。“造物”是过程,做为人们日常生活中的一个重要环节,蕴含着更为广泛的财富。传统造物智慧延续,不仅仅是一种使用方式的传承,更是文明的缩影。本文通过对传统造物器具的分析,进行造物智慧研究,并提取对日常家居产品设计具有现实意义的造物设计
哈尔滨地区的地面沉降在中国东北地区具有典型性.目前,已采用精密水准监测、自动化测控、GPS监测、InSAR监测等技术方法,建立覆盖全市第四纪地层的地面沉降监测体系.为了更好
随着信息技术的不断发展和完善,多媒体辅助地理教学已进入地理课堂。在地理教学中有效的运用多媒体,不仅可以提升课堂教学氛围,还可提高课堂教学效果;能增加教学质量,直观的解决地
目的探讨降低给药错误的管理策略,为临床安全给药提供参考依据。方法通过检索Cochrane、Cinahl、Elsevier、www.guideline.gov网站、Pubmed、中国生物医学文献数据库及维普期刊
组蛋白赖氨酸甲基化修饰是“组蛋白密码”假说的重要组成部分,在生物体的生命活动中扮演着重要功能。组蛋白赖氨酸甲基化是由赖氨酸甲基转移酶催化SAM产生,由甲基化赖氨酸识
培养目标决定了课程内容的选取与设置,为了进一步提高课程质量,全方位提升化学教育专业硕士的培养水平,迫切需要对原课程内容多、繁、杂等问题进行整改。本文重新整合与构建了5