密度偏差抽样技术在聚类算法中的应用研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:edyzhang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法。利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率。实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样。
其他文献
基于树自动机理论,研究了Active XML(简记为AXML)模式重写问题,提出了一种多项式时间的AXML模式重写判定算法,并对算法进行了实现。实验结果证明了所提算法用于判定AXML模式重写的
平台安全性在远程访问企业资源显得越来越重要。目前VPN客户端认证在对终端用户身份和平台身份认证的同时,尚未很好地保证终端平台的安全性,使得终端平台成为入侵者获得非法访
多核处理器环境下必须解决多核处理器的并行编程问题,才能够充分发挥多核处理器的性能。事务存储(Transactional Memory)机制提供了一种在多核环境下程序并行执行和同步的方法。
为了解决在移动环境下将更新操作转化成删除和添加操作的传统一致性维护算法所增加的不必要的数据通信流量和数据存取,现将语义裁剪的思想融入一致性维护算法,将更新粒度细化至
可满足性问题是理论计算机和人工智能中的著名问题,很多问题都可以通过可满足性求解方法解决。对EDA领域中可满足性问题的求解技术进行了研究。总结了目前主要的求解方法,并对
常规的模糊控制器主要通过计算机软件或单片机实现,但模糊控制器是一个高度并行的系统,实时性、自适应性要求较高,这种实现方式不能满足现代模糊控制器的设计要求。要解决这个问
给出了一种新颖的多跳CDMA Ad hoe网络跨层性能分析模型。首先建立了随机网络拓扑的数学模型,进而分析了采用MFR路由策略时源节点到目的节点所需跳数的概率分布情况。然后结合
针对目前很少关注非致密非规则数据聚类的情况,利用蚁群算法具有的组合优化方面的优势,引入近邻函数准则,提出了基于蚁群算法和近邻函数准则的聚类算法,来求解非规则非致密数据聚
针对网格动态性引起副本数据一致性维护困难的问题,根据网格的动态特性建立了网格系统模型和副本一致性维护模型;提出了适用于低在线率情况的动态投票机制,并在此基础上给出了一
实现细粒度的取证副本完整性检验是计算机取证的新需求,但是为每个取证对象生成一个独立Hash数据的完整性检验方法会产生大量的Hash检验数据,给Hash检验数据的存储与网络传输带