基于洗牌算法的大数据抽样有效性分析

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:yilishabai123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于折叠技术的洗牌算法具有较好的数据置乱效果,可以满足大数据抽样的前提条件。为证明置乱后的数据集在经过抽样后内部规则不被破坏,通过数据挖掘的方法对抽样前后的数据进行关联规则分析。对比所得关联规则的支持度、置信度,以及事务出现的频率,发现经过折叠洗牌算法置乱后的数据在抽样前后所得到的关联规则变化相对稳定,并通过与现有算法的时间效率以及抽样总体误差作对比,进一步在理论上得出大数据抽样具有有效性,即可以通过抽样样本来推测数据整体情况。
其他文献
子空间聚类通常可以很好地处理高维数据,但由于数据本身的噪声等的影响,系数矩阵的块对角线结构往往容易被破坏。针对上述问题,提出了一种标记判别和局部线性强化的半监督稀疏子空间聚类。一方面,通过约束标记数据之间的系数为0,更好地捕获数据的全局结构;另一方面,通过K近邻关系加强数据邻近点之间的局部相关性,同时消除大量不相关的数据点,增强算法的鲁棒性。通过在多种数据上的实验,验证了提出的半监督聚类算法的有效
当前融合评分和标签的推荐方法对两种数据的挖掘程度有限,且大多数局限在提取浅层的线性特征层面。深度学习技术被成功应用于推荐方法,然而数据的稀疏性导致学习的潜在特征效果不好,因此,提出一种融合评分和社会化标签的两阶段深度推荐方法。首先,利用堆叠降噪自编码器分别从评分和社会化标签中提取用户、项目的潜在特征;其次,将学习的潜在特征进行拼接作为用户、项目完整的潜在特征,并与原始评分相结合构建监督学习数据集;
哈希编码能够节省存储空间、提高检索效率,已引起广泛关注。提出一种成对相似度迁移哈希方法(pairwise similarity transferring hash,PSTH)用于无监督跨模态检索。对于每个模态,PSTH将可靠的模态内成对相似度迁移到汉明空间,使哈希编码继承原始空间的成对相似度,从而学习各模态数据对应的哈希编码;此外,PSTH重建相似度值而不是相似度关系,使得训练过程可以分批进行;与
胶囊网络(CapsNet)强调对图像特征的空间关系进行编码,但是其特征提取模块难以应对复杂分类场景。为了提升CapsNet的性能,提出了一种具有自注意力(self-attention)特征提取模块的胶囊网络(self-attention capsule network,SA-CapsNet)。首先通过降低胶囊维度,并增加一个中间层来改进CapsNet;然后将SA模块映射到胶囊网络的特征提取层,增加
针对现有的图自编码器无法捕捉图中节点之间的上下文信息的问题,提出基于重启随机游走的图自编码器。首先,构造两层图卷积网络编码图的拓扑结构和特征,同时进行重启随机游走捕捉节点之间的上下文信息;其次,为了聚合重启随机游走和图卷积网络获得的表示,设计自适应学习策略,根据两种表示的重要性自适应地分配权重。为了证明该方法的有效性,将图最终的表示应用于节点聚类和链路预测任务。实验结果表明,与基线方法相比,提出的
由于无监督环境下特征选择缺少类别信息的依赖,所以利用模糊粗糙集理论提出一种非一致性度量方法DAM(disagreement measure),用于度量任意两个特征集合或特征间引起的模糊等价类含义的差异程度。在此基础上实现DAMUFS无监督特征选择算法,其在无监督条件下可以选择出包含更多信息量的特征子集,同时还保证特征子集中属性冗余度尽可能小。实验将DAMUFS算法与一些无监督以及有监督特征选择算法
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and improved density peak partition clustering algorithm,MR-IDPACA)。首先,通过自然最近邻定义新的局部密度计算方式,
基于表示的分类(representation-based classification,RC)通常使用所有类的训练样本来表示测试样本。然而,是否需要使用全部类来表示测试样本仍有待研究。为此,提出一种两阶段表示分类框架。首先使用RC算法计算测试样本相对于全部类的训练样本的表示系数,找出前k(k≥1)个具有最小表示误差的类;然后利用该k个类的训练样本,再次应用RC算法对测试样本进行表示,并通过从这k个
为了解决推荐模型中无法挖掘用户兴趣多样性和捕捉用户行为序列之间的顺序信息,以及交互发生在元素级并非特征向量之间等问题,提出一种基于多头注意力机制和位置信息的xDeepFM推荐模型(extreme deep multiple attention and location information factorization machine,xDMALFM)。首先通过多头注意力机制进行不同子空间的特征深
近年来随着深度学习在多个领域取得了不错的效果,深度学习也开始应用在推荐系统,例如利用深度学习技术来捕捉高阶特征交互的NFM模型和DeepFM模型等。然而考虑到外部环境和内部感知的变化,用户的兴趣也应该随着时间动态的变化,且基于原始特征进行组合不一定能学到有效特征交互。为此尝试构建一种新的模型FG_DRFwFm,该模型能学习多特征域低阶与高阶特征交互与处理用户长期兴趣变化,并且训练特征是根据原始特征