论文部分内容阅读
化学结构数据库的建立与应用历来广受研究人员重视,现已成为化学各学科研究的基本支撑平台。本文使用关系数据库插件技术设计、构建了化学结构数据库,并对化学结构信息的存储、子结构检索效率进行了研究。
本文在数据库管理系统Oracle11g的环境下,安装OrChem和Bingo关系数据库插件,以PubChem Compound SDF文件为数据源,设计化学结构数据库化合物基本结构信息表,建立了包含约40万种化合物的化学结构数据库;通过使用JDBC技术实现远程数据库B/S访问,并测试使用ROWID方法实现高效的分页查询。
对关系数据库插件OrChem和Bingo表征和存储化合物二维结构信息的方式进行了对比。测试结果表明,对于包含40万种化合物的化学结构数据库,存储Molfile,Bingo比OrChem总的存储空间节省了32.5%;对于Bingo,采用SMILES和Binary时总的存储空间比Molfile节省了81.3%和78.3%;同时在功能上,Bingo还支持三维结构检索和高亮显示子结构,以及包含化学结构共振形式、互变异构体特征的多条件查询。
采用关系数据库插件能够实现分子指纹的生成、建立索引和化合物子结构检索。本文从分子指纹的构成和索引策略两方面讨论了OrChem和Bingo的主要差异,并选取10个特征化合物进行子结构检索测试。对存储40万种化合物的化学结构数据库的测试结果显示,OrChem可满足用户检索响应,Bingo则更为准确和快捷。对于存储2600万种化合物的化学结构数据库,针对Bingo通过优化Oracle数据库内存管理、数据表结构、子结构预筛选参数,显著提高了化合物子结构检索的效率。