论文部分内容阅读
破译世界上最巨量信息的“天书”——“人类DNA序列”是二十一世纪最重要的任务之一,对人类DNA序列进行分类又是这一任务中的重要组成部分。本文选择对人类DNA序列进行分类作为研究的内容,主要解决了以下三个问题: ①将遗传算法应用于分类系统中,构造出新的分类方法; ②对遗传算法进行改进,并将其应用于分类系统中,使分类系统的性能有了很大的改善; ③用实现的分类系统对DNA序列进行分类。 在分类方法中,分类的准确率是至关重要的。为了提高分类的准确率,本文从以下方面进行了深入的研究:首先利用遗传算法的优点,将遗传算法应用于分类系统中,得到了基于基本遗传算法的分类方法,提高了分类的准确率,使该分类方法具有很强的适应性和可扩充性。然后提出了对基本遗传算法的改进方案——优化遗传算法,并将其用于分类系统,得到了基于优化遗传算法的分类方法,进一步提高了分类的准确率。最后将两种分类方法用于“DNA序列的分类”。 下面是基于基本遗传算法的分类算法的基本思想: (1)编码方法,编码采用二进制编码,从位串空间转换到编码空间。 (2)分类器,是由一组特定形式的知识构成的。为了便于遗传算法操作,规则的条件部分按字符集{0,1,#)编码。 (3)遗传算子设计:遗传算子首先采用传统的算子,然后针对传统算子进行改进。 ①选择算子,采用按适应度比例的轮盘赌选择法,其中每个个体被选择的期望数量与其适应值和群体平均适应值的比例有关。首先计算每个个体的适应值,然后计算出此适应值在群体适应值总和中所占的比例,作为该个体在选择过程中被选中的概率。轮盘赌选择的具体实施过程为,将个体选择概率按由高到低排序,然后计算他们的累积概率,并产生一个*,1]之间的随机数,当累积概率大于随机数时,就得到了被选择的个体。②交叉算于,通常采用的方法包括一点交叉。两点交叉、多点交叉、一致交叉等。③变异算于,通常在捌¥算法中,按变异概率尸n;随机翻转某位等位基因的二进制字符值来实现变异算子。 (4)群体设定,根据模式定理,群体规模对遗传算法的性能影l们很大。若群体规模为n,则迷传算于可以从这n个个体中’*J8和检测O扯)个模式。群体规模越大,群体中个体的多样性越高,算法陷入局部解的危险就越小:但随着群体规模的增大,计算量也显著增加:若群体规极太小,攸遗传算法的搜索空问受到限制,则川能)。‘l:木成热收敛的现象。 (5)遗传算法迭代过程终_止方法一般有: ①设定最大代数;②根据群体的收敛程度来判断;③根抓算法的立即性能和再现性能的变化进行判定;④在采用粘英保留选择策略的情况下,按每代最佳个体的适应值的变化情况确定。 “)遗传算法执行的流程是:①初始化(包括遗传参数、分类器。环境、信任分配参数、循环次数):②对生成的初始群体进行检测生成初始的消息;③检查消息是否匹配分类器。若匹配,将其放入桶队列中:④执行信仕分配算法;⑤对分类器执行遗传操作(选择、交叉。变异);③判断是否符合结束条件。若是,结束:否则,转到第③步继续执行。 为了进一步提高分类的准确率,本文提出的基于优化遗传算法的分类方法,其卞耍策略如下: 首先让父个体进行交叉、变异操作,得到下一代个休(即子个休);然后将于个体的适应值与其父个体的适应似进行比较,如人厂个休的适应值大于父个体的适应值,则用子个体替代父个体作为下一代群休中的个体;否则,保留父个体到下一代群体中,作为群体I。I。的个体。 对于选择算子,首先对群体中的各个个体按适应度进行排序(降序),然后再进行选择。 7 对于变异算于,如果对染色体位串的等位基因按变异概审进行反转,山于变异概率较小,变异操作很少发生,使得计算机的时问大量浪费在这上面,遗传算法的效率很低。因此可以对个体进行判断是否发生变异,若变异,则对该个体随机选择等位基因进行变异操作,这样可以大大提高算法的效率。 最后本文将基于遗传算法的分类系统用于**A序列的分类中,什对其分类效果进行分析。 基于基本遗传算法的分类算法应用于DNA序列的分类l-[I分类徘确率为97.80%。而采用优化遗传算法的分类系统对**A序列进行分类,分类准确率为:99.45%。另外,对改进后的算法的动态分析发现,其动态性能非常好,随遗传代数的增加,分类准帆率会进一步提高,井巨会接近于 100%。而基于基本遗传算法的分类系统,随分类次数的增加,分类准确率一般会稳定在95%左右,出现局部收敛现象。 通过实验可以看出,本文提出的优化遗传算法能够在一定程度上提高分类器的分类准确率,有一定的实用价值。