【摘 要】
:
随着数字时代的来临,数据的存储和处理工作越来越得到重视。数据挖掘技术作为一种数据处理方法需要对数据进行有效的预处理,而预处理过程中对存储在数据库中的缺失数据进行推
论文部分内容阅读
随着数字时代的来临,数据的存储和处理工作越来越得到重视。数据挖掘技术作为一种数据处理方法需要对数据进行有效的预处理,而预处理过程中对存储在数据库中的缺失数据进行推导并填补已经成为一个亟待解决的热点研究问题。普通FCM算法仍然存在初始聚类中心的选择具有随机性以及收敛较慢等问题。针对初始聚类中心的选择,结合k维树和空间划分树,分别提出了改进的FCM算法。该算法能够有目的地找到一组优化的初始聚类中心从而减少迭代次数和运行时间。针对数据库中的空值问题,给出一种基于FCM关系数据库单空值估计方法。算法通过相关降维技术获得一组较为客观的空值属性的依赖属性。在此基础上利用改进的FCM算法对数据集进行聚类。针对每一个聚类中情况的不同,分别使用多元线性回归的方法得到一个近似的拟合函数。实验表明该方法能够提高空值估计的准确性,得出的估计值具有较高的准确率。大多数空值估计方法仅仅基于空值所在数据表的信息,而忽视了关系数据库中数据表之间的关联关系。针对这一问题,利用数据表间的外键传递关系,引入多表间的关联关系以扩充空值所在数据表的信息。根据数据库中空值所在表和其他表的关联关系的不同模式,提出三种不同模式下扩充空值所在数据表信息的方法。对数据表中多个属性上同时存在的空值,以往常用的方法忽视了空值之间的依赖关系,更没有注意到空值估计的顺序问题。对此研究了表内空值间的相关关系,给出了空值的选取与转化方法以及空值的估计优先级。在两者基础上提出一种基于多表关联信息的数据库多空值估计方法。实验表明该方法与本文提出的基于FCM的数据库单空值估计方法以及其他常用的空值估计方法相比,具有更高的准确率。
其他文献
随着微电子技术、通讯技术和网络技术的不断发展,嵌入式应用技术以其易于集成、开销低以及应用广泛等特点成为现代社会各个领域的热门技术,在数据采集领域也发挥着非常重要的
车载自组网(Vehicle Ad Hoc Network, VANET)是一种无线移动Ad hoc网络,它为车辆间以及车辆与道路边的设备间提供通信服务。VANET作为一种新兴的无线Ad hoc网络,吸引了众多业
近几年来,随着以互联网为代表的计算机信息技术的普及,数据呈飞速增长的趋势,人们积累的信息量达到了TB级,甚至PB级。在现实生活中,许多数据是以动态的“连续数据流”的形式
microRNA是一种单链的非编码小分子RNA,长约20-24个核苷酸,它由长度约为70个核苷酸的microRNA前体(pre-microRNA)经过具有RNaseIII活性的Dicer和Dicer-like-1内切核酸酶加工
随着CAD技术的不断发展,以网络化、多媒体化和智能化为特征的现代信息技术在勘察设计领域的广泛应用,基于计算机的系统工作(Computer SupportedCooperative Work,CSCW),引起了工
21世纪是信息和知识的世纪,进入21世纪以来出现了以知识为主题的新研究方向,推动了网络信息技术向更高层次发展。目前,数据挖掘和知识发现已成为计算机科学和应用技术科学的一个
最近几年,随着医学影像技术的成熟和发展,基于这些神经影像技术的图像数据提取人脑的全脑结构与功能连接模式,用于脑疾病的预测和诊断,已经成为新的研究热点。通过运用机器学
随着网络规模的急剧膨胀和网络业务类型的日益多元化发展,一些新型网络应用如视频会议、VoIP、远程教育等对网络资源的需求越来越高,现有的网络体系架构在满足应用请求的同时
物流行业作为一个新兴的行业,正处于蓬勃发展的时机。物流公司的业务支撑系统中逐渐累积了大量的数据,简单报表工作已经无法满足公司管理层对于数据分析的需求。公司管理层迫切
在开放教育这种分散式的学习模式下,教学管理工作是保证良好教学质量最重要的一个环节,教学管理是否到位直接关系着教学的质量。为配合中央电大“课程超市”的服务理念、提高天