论文部分内容阅读
现阶段生物技术的发展十分迅速,蛋白生产工艺的确定是其中的热门,也是目前生物领域中的一项重要研究课题。蛋白纯化工艺是蛋白生产中一个十分重要的步骤。在蛋白生产及相关研究中蛋白质的分离纯化技术使用广泛,传统的蛋白纯化方法是依靠操作人员的经验进行反复的试验最后进行确定的,但是此方法却花费比较大,周期也比较长。蛋白质本身所具有的各个性质与蛋白纯化方法之间存在着一定的关系,因此本文将数据挖掘技术引入到纯化方法的确定中来。决策树方法不仅能够直接体现数据的特点,便于理解,具有较好的分类预测能力,能方便提取决策规则,而且擅长处理非数值型数据。本文采用决策树方法中的ID3算法对历史蛋白数据集进行分类,找出蛋白性质与纯化方法之间的隐藏关系。ID3算法以信息论为基础,以信息熵和信息增益度为衡量标准,实现对数据的归纳分类。但是ID3算法存在不能处理离散数据和多值偏向性的缺点,不能直接应用到蛋白纯化方法的确定中,本文提出了改进的ID3算法(RS-ID3),运用粗糙集理论将数据离散化并应用信息增益率来计算属性重要度,克服了传统ID3算法的局限性。通过对UCI标准数据库中的数据集进行分类,将RS-ID3算法与另一种改进的ID3算法——C4.5算法进行比较,可以看出所提方法具有更好的分类效果。最后将所提的RS-ID3算法用于蛋白质纯化工艺摸索,实例验证也具有很好的效果,该方法为纯化方法的确定提供了支持。