论文部分内容阅读
随着社会的进步与经济的迅速发展,城市中机动车保有量不断增加,随之而来的是一系列道路交通安全问题。在中国每年因交通事故死亡的人数超过26万人,造成了巨大人员伤亡和财产损失,道路交通安全分析成为国内外学者们研究的热点。最早对交通事故的致因分析主要是对事故的宏观分析和数据的统计分析,重点分析人、车、路、环境这几种因素对交通事故的影响。随着进一步研究,认为交通事故的原因是多方面、系统的,有内在联系的,加之近年来大数据智能分析技术的发展和应用,利用数据挖掘、机器学习相关技术对交通数据加以分析计算,朔源事故原因,找出潜在风险因素,有利于提出针对性措施,避免并预防交通事故的发生,具有良好的应用意义。本文针对交通事故原因多样性特点,同时考虑到新闻报道真实性和时效性的特征,利用交通事故相关的新闻数据,对导致交通事故的风险因素加以挖掘分析。论文以新浪网站交通事故新闻为数据源,从新闻事件中提取引发交通事故的风险因素,使用Neo4j图数据库进行存储。克服经典Apriori只适用于单一维度的关联挖掘以及需要频繁扫描数据库的缺点,提出了改进的多值属性MA-Apriori算法,以省市为关注点,挖掘出导致事故发生的多种风险因素组合。为提高对新增数据进行在线学习的能力,本文参考Fast Update(FUP)增量挖掘算法的思想,进一步对关联规则学习算法改进,建立交通事故风险因素的增量挖掘分析算法。最后根据挖掘结果,总结出省市多发交通事故的规律,利用贝叶斯网络构建了交通事故风险预测模型,为交通事故进行早期预防的措施提供依据。本文的主要工作和创新点如下:1、建立新闻交通事故记录数据库。在对交通事故的研究中,以交通事故相关的新闻报道数据为基础,考虑到气象对交通的影响,力图从新闻报道结合实时天气挖掘事故诱发因素,建立了交通事故记录数据库。本文使用爬虫技术对新浪网站2015至2017年的新闻数据进行抓取,对数据清洗的基础上,通过文本关键词提取方法过滤与交通事故无关的数据。最后,从筛选后的新闻中提取出交通事故的风险因素,包括事故发生的时间、地点、天气、事故原因、交通方式和事故类型6个属性,并采用Neo4j图数据库存储交通事故记录,构建了包含1177条数据的交通事故记录数据库。2、提出基于多值属性关联规则的改进算法。本文采用Apriori算法对交通事故因素的关联规则加以挖掘,考虑到事故风险因素是多维因素之间的关系,采用多维关联规则挖掘。克服Apriori算法只适用于单一维度的关联挖掘以及需要多次扫描数据库,导致计算效率低下的缺点,本文提出一种改进的MA-Apriori算法,根据交通事故新闻数据的特性,在连接步过程中加入对是否包含“地点”和“事故类型”这两个维度的判断,并且在剪枝步只考虑生成“事故类型”的频繁项,在挖掘所需的规则同时提高挖掘计算效率。使用传统Apriori算法和MAApriori算法在交通事故数据集上进行对比实验,结果表明,支持率越小,改进的算法效率越高。3、提出改进增量式关联规则算法。随着新增数据不断获取,有利于挖掘更为有效的交通事故引发因素及关联关系,然而采用传统的Apriori算法,则需要重新扫描包括原始和新增数据的整个数据库,未充分利用已获取的知识,导致耗费大量的时间和空间,本文参考FUP算法的思想,提出改进增量式关联规则算法UMA-Apriori算法,利用原始数据库获得的频繁集为基础,再计算新增数据集的频繁集,然后对两个频繁集进行比较,保留下相同的部分,对于不同的部分,分别计算在数据库中的支持度,留下满足最小支持度的频繁集,最终使用结合后的频繁集计算出强关联规则。通过对新增数据进行增量关联规则挖掘,结果验证了UMA-Apriori算法相比原算法的效率有所提高,并且随着增量数据越多,效果越明显。4、构建交通事故风险预测模型。贝叶斯网络是不确定知识和推理领域最有效的模型之一,对于数据分析与预测具有很大优势。因此,本文选择贝叶斯网络作为构建交通事故风险预测模型的基本模型,利用所获得的事故风险因素为基础,通过计算各影响因素间的条件概率来计算事故发生的概率,达到事故风险预测的目的。本文分别使用所建立的原始交通事故数据集和新增数据集,对构建的风险预测模型进行测试,并对风险预测模型的有效性进行分析,在训练集上的预测准确率达到94.2%,在测试集上的准确率为86.1%,证明该预测模型是有效的。