基于改进KD树的k近邻算法在欺诈检测中的应用

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:baichunbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 面对互联网交易中店家靠刷销量欺骗消费者的问题,提出使用k最近邻(k-Nearest Neighbor,kNN)算法进行欺诈检测。 针对传统kNN算法在搜索k近邻时耗时过多的问题,提出基于KD树结构的kNN算法。 为解决经典KD树算法由于每次回溯都要回溯到根节点而导致查询效率低的问题,提出使用最佳桶优先(Best-Bin-First,BBF)算法进行k个近邻的查询。 算法首先对待测数据集进行PCA降维,再构建KD树结构,最后使用BBF算法进行k近邻的查询。 实验证明,提出的算法可及时有效地检测出欺骗行为。
  关键词: 异常检测; k最近邻; KD树; BBF算法; PCA技术
  文章编号: 2095-2163(2021)03-0138-05 中图分类号:TP399 文献标志码:A
  【Abstract】In the face of the problem that stores cheat consumers by brushing sales in Internet transactions, the k-Nearest Neighbor (kNN) algorithm is proposed to detect fraud. Aiming at the problem that traditional kNN algorithm spends too much time in searching k nearest neighbor, a kNN algorithm based on KD tree structure is proposed. In order to solve the problem of low query efficiency caused by the classical KD tree algorithm, Best-Bin-First (BBF) algorithm is used to query k nearest neighbors. First, PCA dimension reduction is performed for the measured data set, then KD tree structure is constructed, finally, BBF algorithm is used for k nearest neighbor query. Experimental results show that the proposed algorithm can detect the cheating behavior in time and effectively.
  【Key words】 anomaly detection; k-Nearest Neighbor; KD tree; BBF algorithm; PCA technology
  0 引 言
  随着网络技术的发展,互联网交易现已是人们生活中必不可少的一部分,面对日益激烈的竞争,部分商家通过刷销量这种不良手段来博得消费者的信任与购买。 面对这种状况,时下的欺诈检测方法主要通过区分正常数据与异常数据的差异来做出辨别,而异常检测方法也被公认为是有效的欺诈检测方法[1]。 其中,基于kNN算法的异常检测技术即已广泛应用于各个领域中[2]。 关于该算法在时间效率上的提升,主要分为3种:缩减数据集[3]、降低维度[4]、优化搜索空间[4]。 KD树算法则是索引空间优化中一种最经典、也最常用的算法,该方法可有效减少k个近邻的查询时间。
  在异常检测中,准确率和时效性是评判算法优劣的重要指标。但是在高维数据中,KD树需要回溯的节点数大大增加,这将会导致查询效率回退至传统kNN算法的蛮力搜索。 因此改善高维数据的k近邻搜索方法,有助于快速发现并制止商家的欺骗行为,能有效地保护消费者的权益。
  为了减少交易行为中欺诈行为的发生,学者们致力于研究领域适应且高效快速的欺诈检测算法。在信用卡欺诈检测方面,Mases等人[5]分别将BP神经网络和贝叶斯信念网络模型应用于信用卡反欺诈场景中,实验结果表明贝叶斯信念网络具有更高的检测率。Liu 等人[6]针对金融欺诈提出了一种基于随机森林的检测模型,该模型利用特征选择,并使用真实数据集进行测试,实验验证了该算法具有较高的准确率。 针对在线交易,在Chang等人[7]的工作中利用马尔可夫模型提出一种信誉评估机制,该算法利用粒子群优化算法的搜索机制快速捕捉电子商务系统中商家的不良行為,从而保护买家不受欺骗和其他恶意行为的侵扰。 Wang等人[8]提出了一套基于统计距离的监督式欺诈检测技术,该技术主要通过动态更新的阈值法检测异常,实验证明该技术可有效识别出异常。
  1 相关技术
  1.1 kNN算法
  kNN算法[9]在分类和回归问题中都是常用算法之一,在回归问题中其判别异常的原理如下:首先基于某种距离度量计算每个待测数据点与其他数据点之间的距离;再分别找出待测数据点的k个最近邻之和,以和值作为待测数据点的异常值;最后通过比较异常值的大小判别异常数据点。
  1.2 PCA技术
  主成分分析(Principal Component Analysis,PCA)技术又叫主分量分析技术[10]。 该技术是一种常用的简化数据集的技术,主要通过利用降维的思想将多个指标转换成少数几个综合指标,现已广泛应用于模式识别、图像压缩以及异常检测等多个领域。
  1.3 KD树与BBF算法
  经典的KD树(K-Dimensional Tree)算法是由Bentley[11]在1975年提出的,KD树是一种空间划分数据结构,在kNN算法上的应用包括建树和索引两个阶段。 其中,索引阶段包括二分查找和回溯查找两个部分,前者确定查询路径,后者沿着查询路径逆向递归查询k个近邻至根节点。   在高维空间中,回溯次数的明显增多严重影响算法的效率。为解决这一问题,本文提出使用BBF算法[12]进行k个近邻的搜索。 该算法通过建立优先队列并设置最高回溯次数与最大运行时间来提高算法执行的效率。 在本文中,为高效快速地检测不良商家的欺诈行为,对传统的kNN算法进行改进,先使用KD树算法构建KD树,再使用BBF算法进行k个近邻的搜索。
  2 基于改进KD树的k近邻算法
  2.1 模型建立
  穷举法是实现kNN算法最基础的方法。该方法需要计算每个数据点与数据集中所有数据点两两间的距离,当数据集较大时,该方法十分耗时,针对该问题,本文提出一种基于改进KD树的kNN算法。模型主要包括3部分,分别是:数据预处理模块、KD树构建模块和BBF算法搜索模块。 各部分功能简述如下。
  (1)数据预处理模块:在该模块引入PCA技术对待测数据集做降维处理。
  (2)KD树构建模块:该模块使用类似于二叉树的结构存放数据,为k近邻的搜索做准备。 该模块首先计算数据集X中v个维度的方差,再确定split域与根节点,最后通过与根节点split域值比较大小划分左右子树,依次递归至叶结点。
  (3)BBF算法搜索模块:BBF算法的应用可有效减少回溯次数,加快k个最近邻的搜索。
其他文献
摘 要: 本文研究了语音情感识别中的半监督特征选择问题,即如何利用未标记语音情感数据来帮助选择具有情感判别性的特征。为了解决这个问题,提出了一种新的基于图的半监督特征选择方法。其可以根据标签适应度和流形平滑度,在图上估计一个预测标签矩阵,从而有效地利用标记数据中的标签信息,以及标记数据和未标记数据中的流形结构信息。与现有的基于图的方法相比,该方法能同时进行特征选择和局部结构学习,从而自适应地确定图
摘 要: 本文通过进行大量预处理工作,将经过词袋模型和Word2Vec两种不同向量化方法处理后的文本数据分别输入到SVM和LSTM模型中,训练出可以识别文本情感倾向的模型。进而对新产生的评论进行分类。根据实际数据量的倾斜状况,基于传统机器学习算法支持向量机(SVM),本文提出双层支持向量机,采用2种不同的方法分别训练模型并预测。最后再使用深度学习算法长短时记忆模型(LSTM)再次训练并预测,并对这
针对铁路窗口售票服务质量的问题,提出一种售票窗口服务质量的表情识别监测系统。该系统通过售票窗口外侧的摄像头检测到人脸图像时,表情监测系统每隔一定的时间就会通过安装在售票窗口内的摄像头获取监控范围内的帧图像信息,由表情识别监测系统对图像进行处理和识别,将识别后的结果进行数据统计。基于表情识别技术的监测系统在铁路售票窗口的应用,不仅能够提高售票员的服务质量,也能够让旅客在购票的过程中体验到舒适感。
摘 要: 随着人机交互领域研究的不断发展,交互途径已经从传统的视觉和听觉途径扩展到触觉途径。触觉是人类感知外界信息的重要途径之一。非接触式触觉反馈能够在 AR/VR领域有更好的表现,为虚拟现实中的场景交互提供触觉反馈。本文提出一种基于相控阵技术的方法来使超声波的波束聚焦以模拟触觉。通过Matlab进行超声波换能器声场仿真分析设计开发了基于DSP(Digital Signal Processing)
摘 要: 多式联运是一种新兴的运输方式,通过整合多种交通资源形成一套完善的体系来提高运输效率。航空客运量可以用来评估民航业的发展状况,根据分析出的影响客运量变化的因素,可以为民航系统的发展提供方向。本文利用多元回归分析法,根据现阶段多式联运发展程度较高的上海虹桥机场数据,分析铁路、轨道、公路和水运的客运量对航空客运量产生的影响。  关键词: 多元回归分析; 多式联运; 客运量  文章编号: 209
渔业水质评价智能化对提高渔业生产水平起到关键促进作用.本文针对渔业水质评价设计了基于LBFGS优化的神经网络模型,深入讨论选取特征的有效性并优化了特征选择,实现了模型压
随着社交网络的快速发展,人们通常会上传、分享和记录食物图片,因此食物图像分类的应用价值也越来越大,对食品推荐、营养搭配、烹饪文化等方面都产生了积极的影响。尽管食物图像分类有着巨大的应用潜力,但从图像中识别食物仍然是一项具有挑战性的任务。为了解决食物的细粒度识别问题,本文提出了一种基于自我监督预处理的食物图像分类模型,通过自我监督的学习方式更高程度地学习食物图像特征。该模型在基于密集连接网络的食物图
考虑激光深熔焊过程中存在对流、辐射、热传导等传热过程以及蒸汽反冲作用力,表面张力,热浮力等力学过程,采用移动旋转高斯体热源来简化焊接的热过程,使用VOF方法跟踪自由界
摘 要: 当前国内道路交通管制仍然主要依靠交通信号灯,依然是传统的三色灯固定配时模式,这种模式最大的弊端在于不能针对交通流的实时变化进行动态配时调整,从而造成道路资源的浪费。对多目标算法进行优化,并提出一种交叉路口信号灯智能配时模型。又利用实际数据对模型进行了测试分析。实验证明,该模型能有效减少机动车的平均延迟时间和停车次数,从而提升道路的通行效率。  关键词: 交叉口; 交通流预测; 动态配时;
摘 要: 利用计算机和新媒体技术,网络犯罪案件则呈现出一些新的特征,云计算平台是网络攻击的最大目标。针对新媒体环境下云平台的安全隐患,以及传统电子取证的局限性,阐述云取证工作发展的迫切性,探讨了网络犯罪下云取证的研究热点及模型,以及现有工作所面临的各种挑战,并提出云取证领域今后的改进措施和研究方向。  关键词: 新媒体; 网络犯罪; 云取证; 云计算; 电子取证  文章编号: 2095-2163(