论文部分内容阅读
自然科学与技术科学的信息化是科技发展的重要趋势。科学数据的大量积累,往往导致重大科学规律的发现。这为化学计量学的数据挖掘研究提供了机遇。几十年以来,人们一直在探索如何从红外谱图中极大可能地提取信息,将解析经验化。随着商品化红外光谱仪的计算机化,出现了许多计算机辅助红外光谱识别方法,这些方法大致可以分为三类:专家系统,谱图检索系统,模式识别方法。其中最常用的模式识别方法是人工神经网络和偏最小二乘法。文献中大部分利用它们对子结构或特定类别的化合物进行识别,而对整个有机化合物的红外光谱的深入研究尚未涉及,对化合物的特征吸收峰也没有深入的讨论。此外,即使应用最多的人工神经网络在识别子结构时,对结构碎片的预测准确度也不是很高,且神经网络存在不稳定、容易陷入局部极小和收敛速度慢等问题。本文尝试利用支持向量机算法对有机化合物的红外光谱进行规律探讨。根据各类有机化合物红外吸收的不同,设计了一个分等级系统对OMNIC数据库中6352个有机化合物进行分类。该系统首先将有机化合物分为五大类:芳香化合物、烃类、含氧化合物以及含氮化合物;然后根据各类化合物的红外光谱特征,进一步对其细分:芳香化合物按照取代类型和邻近官能团的不同分为四大类;烃类分为饱和和不饱和烃;含氧化合物根据氧原子所连接官能团不同分为四大类:羟基化合物、羰基化合物、醚、酸;含氮化合物也同样根据红外光谱的特点分为肼、酰胺、芳香胺、脂肪胺;接着根据各类化合物红外吸收的特点又进行了更细致的分类。将支持向量机所得结果与人工神经网络所得结果进行比较,在大部分有机化合物的识别中,支持向量机均优于人工神经网络。在此基础上,利用支持向量机详细研究了芳香化合物的识别.芳香化合物包含五个特征频率区:苯环=C—H键的伸缩振动、苯环=C—H键的面外振动的倍频和和频、苯环骨架振动、苯环=C—H键的面内弯曲振动和苯环=C—H键的面外弯曲振动。讨论了利用芳香化合物五个特征频率区光谱片断以及它们的组合作为支持向量机输入对识别能力的影响,并比较说明了所得结果。结果表明在有机化合物结构识别中,支持向量机的表现优于人工神经网络,表明支持向量机在红外光谱谱构关系研究中具有优异性,较适合红外光谱的研究;在芳香化合物谱构关系的讨论部分,可以看到苯的五个振动方式中,C-H和C-C面外弯曲振动在区别苯衍生物取代类型时是最有意义的,这与经典红外理论一致;在片段光谱和全谱预测结果相比较时,我们发现最好的结果不一定都由全谱得到。这一结论为红外光谱信息的深度挖掘提供了新的思路。支持向量机在红外光谱领域展示出良好的性能,是一种很好的计算机辅助红外光谱解析的工具。将包含特征峰的光谱片段用于光谱识别的研究则为红外光谱计算机解析领域提供新的思路,为最大限度的提取红外光谱信息,最终实现光谱的完全计算机解析打下基础。