论文部分内容阅读
进入二十一世纪以来,随着科学技术、计算机网络技术的飞速发展以及电子商务时代的到来,各行各业都积累了大量的数据,目前数据的规模需要用它来衡量,而且这种规模还在急剧的增长,我们迫切需要对这些数据进行深度挖掘,把它转化为对我们有价值的知识和信息,并且把这些知识和信息用在各个方面。比如电子商务管理、决策、调控等。所以数据挖掘技术由此应运而生。
由于影响病理肠癌五年生存的相关属性比较多,个体存在差异,数据多呈现非线性变化,每个属性值大小反应的程度又是不同的,所以采用SVM方法进行归类存在一定的局限性;同时一个好的预测模型应该具有良好的学习性能,能够通过不同的影响因素值进行预后判断,得出的五年生存的程度也有大小的不同,本文使用SVR方法对病理肠癌进行了研究。
本文首先介绍了课题的研究背景:数据挖掘技术的产生、发展、定义、课题的研究意义以及数据挖掘在国内外的研究现状。其次介绍了统计学习理论以及支持向量机的基本知识,主要包括VC维理论、推广性的界、结构风险最小化和支持向量机的基本原理、最优超平面、核函数及其选择。再次,介绍了支持向量回归机的原理、支持向量回归机的两种模型和核函数及参数选择。最后,在前面章节所介绍的支持向量机以及支持向量回归机基本知识的基础上,利用中山医科大学肿瘤医院120组肠癌病理记录作为样本数据,分别用支持向量回归机和支持向量机方法分别对肠癌五年生存的预后判断进行预测并比较,发现支持向量回归机方法能获得较小的相对误差,其实际结果有相当理想的精度,满足预测要求。