论文部分内容阅读
研究金融网络和反洗钱的一个重要问题是预测可疑账户未来可能发生交易的情况,这个问题可以转化为数据挖掘中链接预测问题。传统的基于图的拓扑结构和节点相似度的链接预测方法有一个很大的不足之处,即使用的是静态的方法,忽视了网络中与时间相关的信息。马尔科夫模型更好的考虑了时间因素,同时具有较高的预测准确性。但是多数马尔科夫模型都是对整个数据集建立一套统一的模型,忽视了预测对象之间的差异性,另一方面,单纯的马尔科夫模型预测算法的时间和空间复杂度较高。针对上述问题,可以将数据挖掘的相关理论和马尔科夫模型结合起来。结合聚类、马尔科夫模型和关联规则的相关理论,给出一个比较完整的预测方案。对每一个账户,根据时间的先后建立其交易对象的账户序列(以下简称交易序列),同时金融交易是具有方向性的,建立交易序列时,采用一种扩展编码的方法可以较好的将方向性引入马尔科夫模型的状态空间中去。采用改进的k均值聚类算法对所有账户的交易序列进行聚类,将具有相似交易特点的交易序列划为一类,这样更有针对性。然后对每个聚类分别建立基于置信度剪枝的低序马尔科夫模型,减少马尔科夫模型的状态数量,预测用户的交易路径。当预测结果出现模糊时,引入关联规则给出更准确的预测结果。与单纯的马尔科夫模型相比,这样既可保证较高的预测准确性,同时保持了相对较低的时间和空间复杂度。根据前面的研究,实现了一个链接预测模块,并通过两组对比实验,验证了预测模型的有效性,表明了聚类对算法预测准确性的影响。