【摘 要】
:
随着移动互联网的深入发展与5G通信技术的普及,每天产生的海量数据需要从中挖掘有价值的信息,使得传统的分类与聚类算法在大数据场景下面临挑战。为了提高分类准确率与聚类效率,本文从近邻关系角度出发,提出了关于kNN算法与k-means算法的改进方案,以提升两者在大数据场景下的优势。本文的具体工作如下:第一,提出了基于近似近邻的kNN改进算法。由于在不平衡数据集中标准kNN算法寻找的精确邻居不一定是最适合
【基金项目】
:
国家自然科学基金项目(62176033, 61936001); 多粒度大数据智能计算关键理论及应用(编号:HZ202108),在渝本科高校与中国科学院所属院所合作项目(重庆市教委重点合作项目); 大数据智能计算(编号:cstc2019jcyj-cxtt X0002),重庆市创新研究群体科学基金项目;
论文部分内容阅读
随着移动互联网的深入发展与5G通信技术的普及,每天产生的海量数据需要从中挖掘有价值的信息,使得传统的分类与聚类算法在大数据场景下面临挑战。为了提高分类准确率与聚类效率,本文从近邻关系角度出发,提出了关于kNN算法与k-means算法的改进方案,以提升两者在大数据场景下的优势。本文的具体工作如下:第一,提出了基于近似近邻的kNN改进算法。由于在不平衡数据集中标准kNN算法寻找的精确邻居不一定是最适合用于分类的邻居,该算法通过参考点衡量数据样本点之间的位置差异,选出更适合用于分类的近似邻居,从而提高分类准确率。在选取参考点时,考虑了训练样本集的分布特征以及候选参考点与已选参考点之间的差异性,区分了有效参考点和无效参考点。最后,通过在UCI公开数据集上的实验表明,在不平衡数据集上,该算法相比标准kNN算法具有更高的分类准确率和几何平均值(G-mean),并且在高维度和分布复杂的数据集中优势更为明显。第二,提出了基于近邻关系的k-means改进算法。该算法利用粒球的思想,为每个簇建立粒球模型,通过减少样本点与簇心之间不必要的距离计算以提升算法的时间性能。首先通过定义粒球间的近邻关系,划分近邻粒球与候选近邻粒球,缩小样本点的搜索空间;其次将粒球内部的样本点划分为“稳定点”与“活跃点”,减少粒球中需要重分配的样本点数量。通过在UCI真实数据集上的实验表明,该算法在误差平方和(SSE)相较于标准k-means算法平均增加约1%的情况下,取得了明显的加速效果,并且随着样本数量、数据维度和聚类中心的增加,算法的加速效果将更加显著。
其他文献
安卓系统具有功能强大、代码开源、市场占有率高的特点,备受用户青睐。同时,庞大的灰色利益链驱使攻击者制作和传播安卓恶意软件,破坏了安卓系统生态安全,对用户隐私信息、个人财产造成了巨大威胁。为准确、高效地检测安卓恶意软件,本文提出了基于多特征的安卓恶意软件检测方案,并进一步提出了安卓恶意软件家族分类方案。针对安卓软件异构特征无法融合,且检测准确率较低的问题,提出基于多特征的安卓恶意软件检测方案。其中主
多智能体系统的集群一致性是复杂系统协同控制的根本问题。现有的多智能体系统集群一致性的相关工作主要针对同质系统并基于智能体间的合作关系。然而,基于条件的限制,系统中智能体的动力学行为通常会存在差异,或者出于控制成本等考虑,需要发挥不同个体的优势。此外,受通信资源的限制等,智能体间通常还存在竞争的交互。为了避免智能体间的实时通信,研究者们引入了事件触发控制策略。然而,相关工作中的大部分事件触发规则不是
滚动轴承是机械设备的“关节”,有着承受载荷和传递动能的作用,其健康与否直接影响设备能否正常工作。由于滚动轴承通常工作在恶劣环境下,致使滚动轴承容易出现损伤,若不及时对其进行维护可能造成重大的安全事故。因此,为了保障滚动轴承持续的正常运行,需要对滚动轴承的健康状态进行更加全面、准确评估。健康评估是对滚动轴承工作时的振动信号进行时域、频域等特征提取,再利用非线性拟合模型对其进行性能退化趋势和剩余使用寿
推荐系统旨在解决信息过载问题,为用户提供更准确的可能性选择,让企业更精准地筛选客户。当前,社交推荐依托于图卷积神经网络在性能上得到了进一步的提升。然而传统的结合图卷积神经网络的社交聚合模型聚合时通常将节点高度纠缠的复杂的表征当作一个整体,但是由于社交推荐中节点偏好的多样性,节点间连边关系的建立往往只需要依据一部分的偏好,因此聚合时考虑邻域节点全部偏好的方式是不合理的。另外,传统社交推荐面对复杂而冗
5G基站的大量部署以及公共交通网络的迅速发展,不断推动着车联网向智能化、网络化的方向快速演进。目前城市核心区域已逐渐形成了由宏蜂窝、微蜂窝、无线局域网等无线接入技术异构而成的超密集异构无线网络。网络的异构融合,为爆发式增长的车载终端提供高性能、高质量的通信服务奠定了基础。但要实现终端在超密集异构无线网络中的无缝接入,仍面临着诸多问题和挑战。譬如,道路拥堵和车辆高动态性移动容易造成网络的拥塞和终端的
<正>近期,工业和信息化部装备工业一司一级巡视员苗长兴在2023中国智能网联汽车科技周暨第十届国际智能网联汽车技术年会上发言,表示工信部将坚持车路云一体化发展路线,加强统筹协同,强化创新驱动,优化政策供给,合力推动智能网联汽车产业高质量发展。在完善标准和准入管理方面,《智能网联汽车标准体系》近期将正式发布实施,加快制定十多项重点急需的标准,加强跨行业、跨领域标准协同,深度参与国际标准法规制定协调,
粒计算是一种用于信息处理的人工智能方法,通过模拟人类认知、分析和处理问题的方式去解决不确定、不完备以及海量信息等复杂问题。而粒球计算是粒计算领域近年来发展出的重要方法,具有高效、鲁棒和可扩展性等特点。粒球计算方法用粒球作为通用特征来覆盖和表示样本空间,在任意维度都只需球心和半径来度量样本空间。但是,现有粒球生成方法存在异类粒球重叠问题,会导致决策边界混淆,影响算法学习性能。本文改进了粒球生成方法,
多智能体系统的一致性协同控制是复杂系统群体智能涌现的根本保障。相较于传统的一致性协同控制方法,在有限时间一致性控制下的系统拥有更快的收敛速度与更好的抗干扰能力,同时由于知晓系统的收敛时间范围,其也被广泛运用于需要较高控制精度的应用场景。然而,从目前多智能体系统有限时间一致性研究中不难发现,很多系统中仅存在单一的动力学模型,且智能体之间的通信条件不够灵活。在实际应用场景中,由于复杂环境中存在着不同的
<正>从促进新能源汽车产业高质量发展国务院政策例行吹风会上获悉,工业和信息化部明确将在今后一段时期发布新版的智能网联汽车标准体系指南,推进功能安全、网络安全、操作系统等标准的制修订,并将启动智能网联汽车准入和上路通行试点。工业和信息化部副部长辛国斌介绍,目前全国已开放智能网联汽车测试道路里程超过15 000 km,自动驾驶出租车、无人巴士、自主代客泊车、干线物流以及无人配送等多场景示范应用在有序开
近年来,我国随着经济地快速增长,城市化进程也不断加快,城市对土地资源的需求也日益增加,然后快速地、无节制地城市扩张给生态环境造成了很大的影响。所以如何科学合理地进行城市扩张以及优化现有的城市空间格局一直都是学者研究热点。但是目前对于城市扩张模型的研究大多数模型都是专注于提高预测精度忽视了对预测结果的可解释的研究,从而导致了目前主流的机器学习、深度学习算法挖掘城市的转化规则缺乏可解释性;并且邻域效应