多关系的约简及聚类研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:youyou306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于现实世界的数据大多存放在关系数据库中,近年来多关系数据挖掘受到越来越多研究人员的重视,而多关系分类和聚类都是多关系数据挖掘中的重要技术。在进行多关系分类时,由于关系数据库结构的复杂性,所以对其中的表和属性进行选择是有必要的,需要删除掉一些对最终分类并无太大影响的表和属性,这样可以在保证一定分类准确度的同时,提高了分类效率。而在对多关系目标表中元素进行聚类时,最主要是能较为精确的计算出目标表中任意两个对象之间的关系距离,这样才能提高聚类的准确度。本文主要利用奇异值分解、典型相关分析等数学理论对多关系中的数据进行分类和聚类。主要研究工作包括:   ⑴基于协方差系数矩阵对关系数据库各表中的特征进行选择。构建每张表对应的协方差系数矩阵,其中协方差系数矩阵中的元素代表这张表中任意两个属性之间的相关性,对这样的协方差矩阵进行奇异值的分解,给定一个阈值λ,将对应的奇异值小于λ的属性都删除,只利用奇异值大于λ的属性对未知元组分类。   ⑵研究基于表的关联度或贡献度的多关系分类,利用典型相关分析方法判断多关系中的各个非目标表与目标表之间的关联度并得到一系列分类关键属性或定义关系数据库中各表的贡献度,约简部分对最终分类影响不大的表,并在对各表进行查找时按照其与目标表关联度从大到小的顺序或者按照贡献度从大到小的顺序依次遍历其中的分类关键属性。   ⑶研究如何计算多关系目标表中对象与对象之间的关系距离,从而对目标表中的对象进行聚类。目标表中对象之间的关系距离不仅与本张表中的属性有关,也与和目标表相关联的非目标表中属性有关。通过给每张非目标表设定不同的权值,较为精确地得到目标表中任意对象之间的距离。
其他文献
无线传感器网络(WSNs)综合了现代网络无线通信技术、嵌入式计算技术、分布式信息处理技术、传感器技术等先进技术,具有十分广阔的应用前景,是目前网络通信领域的新研究热点之
现实生活中的很多问题都是多目标优化问题,越来越多的专家和学者使用演化算法来解决多目标优化问题,并且取得了比较好的结果。在演化过程中,如果演化选择方法使用不当,很难使
随着Internet应用的迅速发展,信息过载使人们面对太多的信息而难以选择和消化,信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,使人们易于信息迷失。迫切需要一种
随着互联网的发展与普及,搜索引擎的使用已经成为人们学习工作中获取信息的重要手段之一。因此,要提高搜索引擎的搜索效率,除了向人们普及正确的使用方法和技巧外,对搜索引擎
三维网格模型在计算机图形学、可视化等领域的广泛应用,使得人们开始关注三维网格模型的骨架提取和细分的研究。骨架提取和网格细分是三维网格模型的基本问题。骨架提取主要
自动代码生成是指使用已有程序自动生成目标程序的过程。其更为详细的描述是通过读取输入的工程设计中的各种文档及模型,按照一定领域规则,生成某种计算机能编译执行的源代码
基于视频分析的智能视频监控是计算机视觉与模式识别领域的一个重要研究方向,也是近些年来很受重视的一项技术。伴随着公共安防需求的不断增加,滞留目标检测已经成为智能视频
由于可变形体仿真广泛的应用领域,它在计算机图形学中变得越来越热门。这类仿真被广泛应用于计算机图形学动画中,例如电脑游戏中布料的模拟,医学手术训练系统中人体软组织的
数据挖掘的大多数算法主要研究问题是发现“大模式”,孤立点发现算法是用来发现数据集中“小的模式”,孤立点是指数据集中那些偏离其他的观测值以至于被怀疑为从不同的机制产
人体肝脏的数字化模型是数字医学和图像分析领域的研究热点之一,近年来备受研究者的关注。肝脏数字化重建的目的是将医学成像获取到的数字图像通过计算机技术实现可视化,为肝