论文部分内容阅读
周期模式挖掘是在时间序列数据中寻找重复出现的序列模式的方法,主要用来刻画变化较小或者稳定的用户行为模式,在许多应用场景下,时间序列数据的周期模式挖掘都具有重要意义。本文在基于交叉熵的序列事件周期性检测方法CEPD(Cross-Entropy based Periodicity Detection)的基础上,针对该方法存在的三个问题,做了进一步改进和拓展研究,并结合电子商务和移动互联网环境下的用户行为进行了推荐应用。本文的主要内容包括三个方面,第一,实现了基于交叉熵的序列事件周期性检测方法的对比研究,并给出了该方法理论上的时间复杂度,在构造数据集和实际数据集上,将基于交叉熵的序列事件周期性检测方法与其他已有方法在运行效率、抗噪音性能和周期检测结果的准确率这三个方面进行了对比,从实验和理论两个方面证明了该方法的可用性。第二,使用机器学习中的正则化技术对周期检测方法的目标函数进行优化,解决了交叉熵随划分周期的增大而系统性下降的问题,提高了方法的可用性以及周期检测结果的可用性,并使用构造数据和实际数据进行实验验证。在具有明显周期的数据集上,添加了正则化项之后的模型更容易检测到合适的周期值。第三,挖掘用户行为模式的周期性,结合周期性检测的结果进行推荐应用。加入周期性信息一方面引入了用户行为的时间信息,另一方面刻画了用户自身的规律性特征。CEPD算法效率分析从理论和实验两个方面验证了基于交叉熵的序列事件周期性检测方法的可用性,正则化技术的引入解决了交叉熵随划分周期的增大而系统性下降的问题,提高了方法的可用性,为下一步的推荐应用奠定了基础。本文的贡献在于以下三个方面,第一从理论上证明了该算法的时间复杂度优于其他算法,从实验和理论两个方面证明了该方法的可用性。第二引入机器学习中的正则化技术,对基于交叉熵的序列事件周期性方法进行优化处理,解决了交叉熵随划分周期的增大而系统性下降的问题,提高了该方法的可用性以及周期检测结果的可用性。第三结合基于交叉熵的序列事件周期性检测结果,构建了基于用户行为周期性的推荐策略,同时考虑了用户意图和推荐时间,一定程度上提升了推荐的效果。