面向金融数据的异常检测方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:guqiurong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前异常检测算法在处理时序性、不均衡的海量金融数据集时存在准确率低、误警率高等问题,本文从特征选择、不均衡分类等方面进行研究,提出一种基于条件动态互信息的金融数据特征选择算法、一种基于隔离森林的金融数据异常检测算法、一种基于SVM和KNN的金融数据异常检测算法。本文主要的研究工作和成果如下:1.针对特征选择算法在处理海量时序性数据集时,评价标准衡量因素片面化得不到最优特征子集问题,研究提出一种基于条件动态互信息的金融数据特征选择算法CDMIFS,该算法结合数据的时序性特点,从多方面衡量候选特征,在未识别样本上以条件动态互信息度量特征与异常类的相关性来获取特征子集。实验结果表明该方法可有效去除金融数据集中不相关数据,提高分类性能。2.针对隔离森林节点划分的随机性造成异常检测准确率低、误警率高的问题,研究提出一种基于异常代价信息增益率的节点划分标准,并根据该标准提出一种基于隔离森林的金融数据异常检测算法FA-iForest。该划分标准考虑属性在历史数据中与异常类别的加权信息熵,同时设置代价函数加大异常类误判的惩罚。实验结果表明,该算法可有效提高隔离森林对金融数据的异常检测能力。3.针对SVM和KNN算法在时序性、不均衡数据集上分类性能差的问题,研究提出基于SVM和KNN的金融数据异常检测算法SVM-KNN。该方法引入时序性特征,采用特征加权核函数,并对不同样本的惩罚因子设置权值,使用构建的SVM进行初步分类,KNN算法进行二次分类。实验结果表明,该算法可有效提升SVM和KNN在金融数据上的异常检测能力。本文研究贡献:引入特征在历史数据中对类别划分的贡献改进特征选择算法;引入特征在历史数据中与异常类别的加权信息熵,对隔离森林节点划分标准进行优化;引入时序性特征,提出一种基于SVM和KNN的混合异常检测算法;金融数据集上实验结果表明,优化所提出算法是有效可行的。
其他文献
草原生态保护补助奖励机制档案是落实草原生态保护补助奖励机制政策中形成的重要档案。它记载和反映了一个地区落实草原生态保护补助奖励机制政策的全部过程和具体成果,是储
文章对烟威地区有代表性的六所高校社会实践现状进行了调研分析。发现本地区大学生对社会实践的重视程度有待提高,与学校开展就业指导方面工作的配合意识也有待加强。驻烟威高
<正>通过对发达农区和城郊村庄的调研,我越来越感到:在经济发达的村庄,如果不实现治理结构的现代化转型,它们在一段时期的繁荣后,将陷入"越发展、越麻烦"的困境。为此,必须在
信息化教学模式是一种符合现代教学思想的新型教学模式,是大学教学改革的必然选择。文中提出了信息化教学模式构建的理论依据,介绍了信息化教学模式的特点及其优越性,并探讨了信
以小米和大豆为主要原料,按国家婴幼儿断奶期辅助食品标准(GB10769-1997)配制了婴幼儿断奶期辅食,并以C57纯系断乳小鼠为模型,通过跳台实验和Morris水迷宫实验考察该米粉对小鼠
移民会馆是明清时期外籍人士在客地建立的一种以地缘关系为纽带、以自我管理为主要职责的民间性社会组织。移民会馆的产生受到中国古代封建社会政治、社会、经济、文化等多方
目的评估以四环素为基础的四联疗法对幽门螺杆菌(Hp)根除治疗失败后的补救治疗的疗效。方法选择经过2~3次常规三联疗法根除Hp失败后的84例患者,予以四环素为基础的四联疗法(枸橼
作者在小说的中形象问题,或者,更具体地说,作者在小说中的态度问题,是一个非常重要,但至今仍聚讼纷纷,莫衷一是的问题。一般人倾向接受的观点是,小说是虚构、想象出来的,是关
政府竞赛众包以竞赛形式集众智,为制良策,解民忧,施善治提供新的思路。本文在厘清政府竞赛众包概念及特征的基础上,运用案例分析法对100个政府竞赛众包案例进行剖析,阐述了当
背景:股骨远端形态学(Distal femoral morphology,DFM)不仅对于膝关节的运动学分析,也对于人工全膝关节置换(total knee arthroplasty,TKA)假体设计至关重要。尤其是在矢状位