论文部分内容阅读
最近的研究表明,基因和环境是引起疾病特别是恶性肿瘤的最主要的因素。在基因中,miRNA是目前最新最热点的研究对象;环境因素有alcohol,tobacco,hypoxia等。疾病相关的miRNA信息大多存在于文献中,为了便于研究miRNA与疾病的关系,本文建立了包含疾病相关miRNA,环境因子以及疾病的数据库miREN。 本文所作的工作主要是以下几点: 第一,收集并阅读有关文献资料,手动整理文献中miRNA,环境因子以及疾病信息。针对大多数数据存在于文字描述中以及文献中提供的数据冗余度较大且数据的格式也不统一的问题,对所整理的信息进行词汇校对,术语统一以及归一化等预处理工作。 第二,构建miREN(miRNA and Environment Database)在线数据库查询及更新程序。对miREN数据库进行了需求调研分析,概要设计以及详细设计。在以上工作的基础上进行编码和测试。测试结果表明miREN数据库系统对数据的查询是完整的准确的高效的。该数据库的构建,可以为相关研究领域的研究者提供一个全面、方便的miRNA,环境以及疾病信息资源。 第三,从miREN数据库中选取乳腺癌作为主要研究对象,对乳腺癌进行是否病发的预测。考虑到支持向量机具有小样本,稀疏性以及非线性拟合能力强等方面的优势,本文将SVM引入到乳腺癌的发病预测之中,并利用遗传算法对SVM的参数进行优化,通过仿真实验发现改进后的SVM模型在乳腺癌发病预测准确率上提高了4.6154%。 第四,验证SVM在恶性肿瘤发病预测中的通用性。从miREN数据库中选取了其他几种恶性肿瘤(结肠癌,肺癌),SVM模型以及参数优化后的SVM模型对以上恶性肿瘤的预测同样取得了较好的预测结果。在数据有预处理的前提下,SVM在恶性肿瘤的发病预测的应用上具有通用性。