基于随机森林分类器的C2C电子商务欺诈识别模型构建

来源 :中小企业管理与科技·下旬刊 | 被引量 : 0次 | 上传用户:datangkang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】C2C电子商务模式由于虚拟性和信息的不对称性,导致交易欺诈现象频发,其发展受到严重影响。论文通过构建具有一定分类精度的随机森林分类器模型,探索从C2C交易商家数据中发掘和识别出异常信息并分析评判的方法,帮助电子商务企业及时发现问题并做出决策,对C2C交易欺诈风险防范具有现实意义。
  【Abstract】Due to the virtual nature and asymmetric information of the C2C e-commerce mode, there often occurs transaction fraud, and its development is seriously affected. Through constructing a random forest classifier mode, which has certain classification accuracy, we explore the method of discovering and identifying abnormal information from C2C trading merchant data and analyzing and judging it, so as to help e-commerce enterprises find problems and make decisions in time, it also has practical significance for the prevention of C2C transaction fraud risk.
  【关键词】C2C电子商务;欺诈识别;随机森林;决策树
  【Keywords】C2C e-commerce;fraud identification;random forest;decision-making tree
  【中图分类号】F724.6 【文献标志码】A 【文章编号】1673-1069(2018)08-0171-03
  1 C2C电子商务发展及其交易欺诈问题
  随着互联网的发展,C2C电子商务交易模式不断成熟稳定,以其不受地域时间的限制、高效率、低成本等优势而受到越来越多人的青睐。近年来我国电子商务消费者人数迅速增长,根据CNNIC第41次《中国互联网络发展状况统计》,截至2017年12月底我国电子商务市场的交易总额高达29.16亿元,较之2016年增幅约为11.7%。网络购物市场总交易规模高达6.2亿元,比2016年增长24%。2010年C2C市场的交易额约为4651亿元,2015年C2C电子商务在中国整体网络购物市场规模中增长率为19.5%,2017年天猫双11全球狂欢节交易额高达1682亿元,年增长39%,数据表明C2C电子商务模式发展空间很大。
  2 相关理论方法介绍
  2.1 分类器原理
  分类器是利用分类技术构建的模型,主要是用来预测数据对象的离散类别,经过对训练集(由类别已知的数据组成)的学习得到一个分类模型,可视作一个目标函数,待测集(所属类别未知的数据)中的每个样本通过该目标函数的映射,得出一个被预测的类别。
  2.2 分类器性能评价指标
  在分类器构建完成后,通常需要使用一系列的指标去衡量它的分类性能,首先是混淆矩阵。混淆矩阵,现在假设分类变量只有两个类别,分别为正例(positive)和负例(negative),其中,True positives(TP):表示实际为正例且被分类器判断为正例的样本的数量;False positives(FP):表示实际为负例但被分类器判断为正例的样本的数量;False negatives(FN):表示实际为正例但被分类器判断为负例的样本的数量;True negatives(TN):表示实际为负例且被分类器判断为负例的样本的数量。
  2.3 决策树与随机森林
  决策树可以抽象理解为一个树形结构,树中的每个非叶子节点代表某个属性,每个分支代表某个属性值,每个叶子节点对应着从根节点到该叶子节点所经历的路径表示的样本的类别,即叶子节点代表的属性就是该样本的分类结果。
  随机森林分类器是包含多个决策树的一种组合分类器,最终的分类结果由这些决策树共同决定。随机森林的特点主要体现在它的两个随机性上,第一个随机性是它在构建每一个决策树时,采用自助法(bootstrap)重采样技术,即有回放地从数据集中随机抽取一定数量的样本,第二个随机性是在决策树进行节点分裂时,随机选择若干属性参与比较,以确定分裂节点。
  3 基于随机森林的C2C交易欺诈识别模型构建
  3.1 数据收集及属性确定
  本研究从淘宝网收集了真实交易数据,整理后共包含41个属性,其中属性“is_cheat”为目标属性,用来表示样本的类别(欺诈商家,非欺诈商家),由于随机森林算法在构建决策树节点时,从数据集所有变量(除目标属性和用于标识的属性)中随机选取若干属性进行比较,所以它能够处理拥有属性较多的数据,无需进行特征选择[1]。如表1所示为各属性名和它们的含义。
  该数据集含样本1456条,类别为“欺诈卖家”的样本数为621,类别为“非欺诈賣家”的样本数为835,训练集和测试集的样本数量。
  3.2 随机森林分类器的构建与训练
  3.2.1分类器相关参数选择
  ①mrty参数的选取
  mrty参数表示随机森林在分类节点处选择参考的属性的数量,对随机森林分类的准确度有很大影响。为了确定mrty的最优取值,本文设计如下实验:将mrty的值分别取为50、100、150,mrty取3至10之间的整数(若数据集的属性个数为M,则mrty的值一般取为,由于本研究中,“count_id”和“is_cheat”属性不计算在内,则M=39,的值介于6和7之间,所以取3至10之间的整数进行实验),以训练集为数据集,以F的值为评价指标,分类器的分类性能和F的值呈正相关。当mrty=6时,F的值比较稳定且普遍较高,所以选定mrty的值为6,即将要构建的随机森林分类器在分类节点处选择参考的属性的数量为6。   ②ntree参数的选取
  ntree参数表示随机森林中所要生产树的数量,它的取值对最终的分类效果也起着至关重要的作用,所以本文也设计如下实验来确定其最优取值:mtry取值为6,将ntree的取值分别设定为10、40、70、100、130、160、190、220、250,同样以训练集为数据集,以F的值为评价指标。当mtry=6,ntree=70时,所得到的F值最大,此时分类器的分类效果也相对最好,所以我们将参数ntree的值确定为70。
  3.2.2 随机森林分类器的训练
  在确定分类器构建所需要的软件及相关参数的取值后,分类器的运行流程
  参数值确定后,进行分类器的构建,在R软件中输入如下程序:
  library(randomForest) ;#加载随机森林程序包
  Data_train <- read.csv(" F: / train .csv" , header=TRUE) ;#读入训练集数据
  Data_test <- read.csv(" F: / test .csv" , header=TRUE) ;#读入测试集数据
  RF <- randomForest(is_cheat ~ , Data_train , importance=TRUE , ntree=70 , mtry=6 ) ;#运行randomForest()函数
  A= predict( RF , Data_test , type="response") ;#運用测试集对随机森林分类器进行测试
  table(A , Data_test $ is_cheat )#将测试结果进行展示
  4 结论
  本文在C2C电子商务交易欺诈日渐严重的情况下,提出以数据挖掘技术中的随机森林算法构建分类器模型,介绍了决策树与随机森林的原理、构建过程,对二者的分类性能进行了对比,得出了随机森林分类器分类效果好于决策树分类器的结论。进而运用从淘宝网上收集的真实交易数据进行分类器模型的构建,通过使用R软件、确定相关参数、测试集测试等步骤,构建了具有较高分类正确率的随机森林分类器模型,可以对欺诈商家进行有效的识别。本文工作试图从C2C电子商务交易卖家数据中有效地识别出欺诈卖家,以期望C2C电子商务交易欺诈问题能够早日得到解决,人们能够获得更加良好更加放心的网上购物体验,卖家可以在公平的环境下竞争,C2C电子商务持续健康发展。
  【参考文献】
  【1】王全才.随机森林特征选择[D].辽宁:大连理工大学,2011.
其他文献
目的:观察阿托伐他汀联合保利尔胶囊治疗老年2型糖尿病伴血脂异常的临床疗效。方法:将60例老年2型糖尿病伴血脂异常患者随机分为两组,治疗组32例,给予阿托伐他汀20mg,睡前1次;
精馏技术是化工行业中的一种典型生产技术,许多化工产品的生产过程都会涉及精馏技术的应用。由此可见,精馏技术在我国化工生产中占很大比重。由于精馏过程工序繁杂,消耗能源
以往的小学数学单元编排倾向于知识传播,多以单课展开设计、教学与测验,这导致教师难以全局审视各知识点之间的联系。为了进一步改进小学数学教学,有效开展单元整体教学,教师
【摘 要】螺钉受力大小可以通过理论计算获得,但在动载荷的作用下,螺钉受力大小很难确定,只能在样机试制阶段,通过测试螺钉实际受力,最后确定量产机所选螺钉的规格。传统的测力螺钉其成本昂贵;采购周期长;测试螺钉的通用性差。论文介绍一种自制垫套传感器测试螺钉受力的方法,该方法主要优点有:传感器制造成本低;传感器制造周期短;传感器可以适应较多的测试位置。  【Abstract】 The force size
1998年8月~2002年4月,我院应用黄芪、丹参注射液联合治疗冠心病28例,临床症状明显改善,报告如下.