论文部分内容阅读
有机化合物及生物大分子在太赫兹波段具有指纹特性,而且太赫兹波的光子能量很低,用于物质检测时不会发生有害的光致电离。近些年,随着太赫兹辐射光源及探测器等硬件方面的迅速发展,太赫兹在物质识别和无损检测等领域的应用也逐渐增多,相应地,物质的太赫兹光谱数量也在迅速增加。如何快速有效地对太赫兹光谱进行识别是当前科研工作者必须要面临的重要问题。传统的方式是将物质在太赫兹波段存在的吸收峰作为特征对其进行识别。然而还有部分物质在太赫兹波段没有明显波峰、波谷等光谱图形特征,光谱曲线整体非常相似,此类物质便很难运用传统的人工选择的方式来确定合适的特征。加之物质的太赫兹光谱数据维度很高,若不对光谱数据进行降维和特征提取,太赫兹光谱的识别将会异常困难且要耗费大量时间。针对此问题,本文提出了一种基于扩散映射的太赫兹识别方法,从纯数据的角度出发,使用扩散映射这种流形学习方法,在保持太赫兹光谱数据内在几何结构的同时对其进行非线性降维并提取低维流形特征,避开了光谱本身的图形信息对光谱识别的影响,而且还能直接确定降维的目标维数,最终提取到的流形特征具有较高的区分度和较好的聚类效果。在实际操作中,物质的太赫兹光谱并不都是在同一批次测得的,而传统的流形学习方法只能处理批量式的样本数据,对于新测得的光谱样本,只能将其与原始光谱样本集合并后,再对合集重新进行降维处理,这无疑会降低太赫兹光谱的识别效率,且不能对太赫兹光谱进行动态识别。针对此问题,本文提出了一种基于增量式正交邻域保持嵌入的太赫兹光谱识别方法。在将原始光谱样本集中各类样本的样本中心添加到新增光谱样本集后,基于重叠点在两个光谱样本集中的低维嵌入坐标保持一致的原则,使两个光谱样本集的维数约简结果得以较好地整合。利用该增量式流形学习方法能有效利用原始光谱样本集的维数约简结果,大大降低太赫兹光谱降维的计算复杂度,实现对太赫兹光谱的动态聚类与识别。