论文部分内容阅读
随着生物化学的高速发展,相关生物医学数据正以指数级增长,天然药物小分子和人工合成小分子越来越多,Pubchem等常用药物数据库涉及近亿种小分子,从药物数据库中筛选出符合要求的小分子化合物是药物设计领域研究的重要内容,但小分子化合物的海量非结构数据使得先导化合物的筛选成为新药研发的难点。传统的实验筛选存在耗时、耗力、耗资等问题,因此,利用计算机技术来解决药物小分子筛选问题成为生物医学研究领域的一个热点。但是,利用计算机技术进行药物小分子筛选主要存在两个挑战,一是药物分子的非结构性,二是药物分子的海量性。因此,如何高效地从非结构化、海量药物数据中筛选出具有相似分子片段的药物小分子是生物信息研究领域的一个热点。本文对以上问题进行了研究,取得了如下研究成果:1)为了便于计算机筛选,一方面,对非结构化的药物化学式如何进行结构化处理进行了研究;另一方面,对非结构化药物化学式的图像信息进行了研究。结合四川大学生物治疗国家重点实验室的降糖小分子筛选问题,提出了相应的计算机筛选方法。2)提出一种基于2D模型的药物小分子筛选方法SMS-2D(Small Molecule Screening method based on 2D model)。首先,输入分子片段和小分子数据库的非结构化文本数据,利用原子与原子之间的链接关系转化为结构化数据,转存后的数据作为输入的比对小分子信息和小分子数据集;其次,计算小分子数据集中的小分子信息与比对小分子的包含度;然后,输出符合要求的小分子数据集;最后,进行可视化处理,验证输出结果的正确性。实验结果表明,SMS-2D方法通过将非结构化文本数据转为计算机便于处理的字符串数据,能够从海量文本数据中高效筛选出包含特定分子片段的小分子化合物,并且能根据阈值筛选出包含与特定分子匹配具有不同相似度的药物小分子。3)提出一种基于图像匹配的药物小分子筛选方法SMS-IM(Small Molecule Screening method based on Image Matching)。首先,输入分子片段数据集和小分子图像数据集;其次,获取数据集中的图像,并对图像矩阵进行处理;然后,计算分子片段图像和小分子图像覆盖区域的对应像素点数量;最后,若值占比大于或等于阈值,则认定小分子图像包含分子片段,输出并保存图像到数据集。实验结果表明,SMS-IM方法能从海量的非结构化图像数据中高效地筛选出包含特定分子片段的药物小分子。