论文部分内容阅读
昆虫学研究中涉及大量分类与回归预测问题,常见的如昆虫的分类识别、构建供试毒品剂量和受试昆虫在试验期间死亡率的生物数据分析模型—时间—剂量-死亡率(time-dose-mortality,TDM)模型等。但传统的研究方法在处理此类问题时还存在诸多弊端。在昆虫分类中,传统基于经验风险最小的建模方法存在着线性、过拟合、局部最小等缺陷;在生物测定数据分析中,基于经验公式的TDM模型只能对单组生物测定数据进行建模,然后求解有关参数,对于更加复杂的生物测定数据,如不同昆虫在不同温度下的生测数据则很难用统一模型表示。在本研究中,我们将支持向量机(support vector machine,SVM)应用于昆虫学研究中。较好的解决了以上问题。主要结论如下:1.在昆虫分类识别中:①以隶属于半翅目、鳞翅目、鞘翅目共3个目的34种昆虫的面积(Area,A)、周长(Perimeter,P)、横轴长(X-length,XL)、纵轴长(Y-length,YL)、形状参数(Shape-parameter,F)、叶状性(Lobation,B)、球状性(Sphericity,S)、圆形性(Circularity,C)、偏心率(Roundness,R)、似圆度(Ec-centricity,E)、亮斑(Hole number,H)等11项数学形态特征,基于支持向量机分目阶元、总科阶元、科阶元三个阶元对此34种昆虫进行分类识别,识别率达90%以上;②基于SVM以总判对率为第一标准,平均判对概率为第二标准对获取的11项数学形态特征值进行筛选,得到各子分类器的最优识别特征值;再以多轮末尾淘汰法对保留特征进行强制汰选,得到各形态特征值的相对重要性次序。经过特征值筛选,识别率提高到96%,尤其是总科阶元的识别率达到了100%;通过强制筛选,给出了个形态特征值重要性排序,并给出了各阶元内的重要特征值;③以7种蝴蝶左前翅9个翅脉交点之间的欧氏距离(1~2、2~3、3~4、4~5、5~6、6~7、7~8、8~9、9~1),基于支持向量机分绢蝶科与粉蝶科进行分类识别,识别率达到95%。通过特征汰选,识别率全部提高到100%。2.在生物测定数据分析中,首先利用TDM模型估计的预测累积死亡概率和生测数据实际的累积死亡概率比较得出拟合均方误差;然后根据留一法原理,逐步对每一个累积死亡概率去掉,并用其余的生测数据进行预测(本文称为TDM留一法),再与实际累积死亡率比较求出均方误差;最后以实际累积死亡率为目标函数,生物供试因子、剂量、时间、温度等诸多要素构成训练集利用支持向量机进行训练建模,从拟合和留一法预测两方面与前述TDM效果进行对比。结果表明基于支持向量回归的生物测定模型不但能对单组生测数据而且对复杂的生测数据均能进行建模,得到的模型不仅能准确得出各种生物活性指标,大部分生测数据预测效果也优于传统的TDM模型。