论文部分内容阅读
Web Services是一种面向服务的体系结构,其突出优点是实现了真正意义上的平台独立性和语言独立性。本文采用Web Services的解决方案,开发了一个生物信息挖掘的原型系统,封装了基于基因表达谱数据的关联规则挖掘模块和启动子识别模块,并将算法作为Web服务公开发布。系统中基因表达谱关联规则挖掘模块采用了数据挖掘中的FP-tree算法。实验表明,基于FP-tree的基因表达谱关联规则挖掘算法大大提高了运行效率,运行时间由原来的25小时变成了1.045秒。启动子识别模块实现了基于马尔可夫模型的启动子预测算法,结合隐马尔可夫模型中的前向算法,改进基于马尔可夫理论的启动子预测方法。单纯使用马尔可夫模型平均分类正确度为84.33%,改进后平均分类正确度为85.17%。改进的马尔可夫模型的预测结果显示,以此模型建立的系统能更有效的识别数据集中的三种序列。同时在启动子预测算法的基础上,研究了结合支持向量机和非线性方法的DNA数据特征提取。利用生物信息学中生物功能基团RY和结构基团MK之间的长程相关进行进一步研究,这种方法更符合生物学特性。Web Services技术作为一种中间层去处理生物信息数据。将算法部分封装在Web Services中,对外只提供用户调用算法接口,可以集成更多功能,具有可扩展性。基于Web Services生物信息挖掘方法能够挖掘出基因表达谱数据中具有生物学意义的关联规则,能够更好的识别启动子序列。为生物和医药技术企业与研究人员提供交流信息的窗口,提供简便快捷的服务平台。