论文部分内容阅读
数据挖掘是当今信息科学研究的一个热点,其涵义是综合运用多种算法,对来自多种渠道的大量数据进行计算机处理,通过去粗取精、去伪存真、由此及彼、由表及里的信息加工,抽提有用信息,从而发现自然规律。作为一门多学科的交叉技术,数据挖掘已成为数据库系统和机器学习领域的重点研究课题,因其应用前景广阔而受到学术界和工业界的广泛关注。合适的数据挖掘平台是数据挖掘技术成功应用的保障,也是非常重要的基础工作。本工作中,作者使用VB.NET和C#开发了一个数据挖掘平台,包含数据导入管理、数据分析、数据预处理(数据降维、特征选择)、机器学习等多个模块。同时,软件为用户联用这些模块提供便利性。ABC2型化合物中有许多是半导体化合物,可广泛应用于光学和非线性材料。本文联用改进过的遗传算法和支持向量机分类方法建立了预报ABC2型化合物是否形成的数学模型,其交叉验证和检验集的预测正确率达到92.04%和91.67%。本文还使用最近邻分类方法预测了ABC2型化合物体系中的晶体结构,其预测正确率达到92.11%。应用支持向量机回归方法建立了能够预报ABC2型化合物体系的禁带宽度和熔点的支持向量回归模型,有关化合物禁带宽度的交叉验证和检验集的均方根误差分别为0.228和0.205;有关化合物熔点的交叉验证和检验集的平均相对误差分别为6.83%,5.86%。