基于关联规则的交通事故风险因素挖掘及预测模型构建

来源 :北京工业大学 | 被引量 : 13次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步与经济的迅速发展,城市中机动车保有量不断增加,随之而来的是一系列道路交通安全问题。在中国每年因交通事故死亡的人数超过26万人,造成了巨大人员伤亡和财产损失,道路交通安全分析成为国内外学者们研究的热点。最早对交通事故的致因分析主要是对事故的宏观分析和数据的统计分析,重点分析人、车、路、环境这几种因素对交通事故的影响。随着进一步研究,认为交通事故的原因是多方面、系统的,有内在联系的,加之近年来大数据智能分析技术的发展和应用,利用数据挖掘、机器学习相关技术对交通数据加以分析计算,朔源事故原因,找出潜在风险因素,有利于提出针对性措施,避免并预防交通事故的发生,具有良好的应用意义。本文针对交通事故原因多样性特点,同时考虑到新闻报道真实性和时效性的特征,利用交通事故相关的新闻数据,对导致交通事故的风险因素加以挖掘分析。论文以新浪网站交通事故新闻为数据源,从新闻事件中提取引发交通事故的风险因素,使用Neo4j图数据库进行存储。克服经典Apriori只适用于单一维度的关联挖掘以及需要频繁扫描数据库的缺点,提出了改进的多值属性MA-Apriori算法,以省市为关注点,挖掘出导致事故发生的多种风险因素组合。为提高对新增数据进行在线学习的能力,本文参考Fast Update(FUP)增量挖掘算法的思想,进一步对关联规则学习算法改进,建立交通事故风险因素的增量挖掘分析算法。最后根据挖掘结果,总结出省市多发交通事故的规律,利用贝叶斯网络构建了交通事故风险预测模型,为交通事故进行早期预防的措施提供依据。本文的主要工作和创新点如下:1、建立新闻交通事故记录数据库。在对交通事故的研究中,以交通事故相关的新闻报道数据为基础,考虑到气象对交通的影响,力图从新闻报道结合实时天气挖掘事故诱发因素,建立了交通事故记录数据库。本文使用爬虫技术对新浪网站2015至2017年的新闻数据进行抓取,对数据清洗的基础上,通过文本关键词提取方法过滤与交通事故无关的数据。最后,从筛选后的新闻中提取出交通事故的风险因素,包括事故发生的时间、地点、天气、事故原因、交通方式和事故类型6个属性,并采用Neo4j图数据库存储交通事故记录,构建了包含1177条数据的交通事故记录数据库。2、提出基于多值属性关联规则的改进算法。本文采用Apriori算法对交通事故因素的关联规则加以挖掘,考虑到事故风险因素是多维因素之间的关系,采用多维关联规则挖掘。克服Apriori算法只适用于单一维度的关联挖掘以及需要多次扫描数据库,导致计算效率低下的缺点,本文提出一种改进的MA-Apriori算法,根据交通事故新闻数据的特性,在连接步过程中加入对是否包含“地点”和“事故类型”这两个维度的判断,并且在剪枝步只考虑生成“事故类型”的频繁项,在挖掘所需的规则同时提高挖掘计算效率。使用传统Apriori算法和MAApriori算法在交通事故数据集上进行对比实验,结果表明,支持率越小,改进的算法效率越高。3、提出改进增量式关联规则算法。随着新增数据不断获取,有利于挖掘更为有效的交通事故引发因素及关联关系,然而采用传统的Apriori算法,则需要重新扫描包括原始和新增数据的整个数据库,未充分利用已获取的知识,导致耗费大量的时间和空间,本文参考FUP算法的思想,提出改进增量式关联规则算法UMA-Apriori算法,利用原始数据库获得的频繁集为基础,再计算新增数据集的频繁集,然后对两个频繁集进行比较,保留下相同的部分,对于不同的部分,分别计算在数据库中的支持度,留下满足最小支持度的频繁集,最终使用结合后的频繁集计算出强关联规则。通过对新增数据进行增量关联规则挖掘,结果验证了UMA-Apriori算法相比原算法的效率有所提高,并且随着增量数据越多,效果越明显。4、构建交通事故风险预测模型。贝叶斯网络是不确定知识和推理领域最有效的模型之一,对于数据分析与预测具有很大优势。因此,本文选择贝叶斯网络作为构建交通事故风险预测模型的基本模型,利用所获得的事故风险因素为基础,通过计算各影响因素间的条件概率来计算事故发生的概率,达到事故风险预测的目的。本文分别使用所建立的原始交通事故数据集和新增数据集,对构建的风险预测模型进行测试,并对风险预测模型的有效性进行分析,在训练集上的预测准确率达到94.2%,在测试集上的准确率为86.1%,证明该预测模型是有效的。
其他文献
提出了一种将潜艇的航路规划问题转化为多阶段最短路径问题的模型,和最短路径问题的威胁度加权算法,并使用蚁群算法来计算最短路径,达到求解潜艇航路规划问题的目的。还针对
目的了解综合医院ICU医护人员对疼痛、躁动和谵妄管理循证知识认知、来源及需求情况,为ICU管理者制订相应的培训和学习方案提供参考意见。方法采用自行设计的一般资料调查表
从大量的交通事故数据中找出引发交通事故的关键因素是提高道路安全水平的重要手段。基于某市全年的交通事故数据,采用改进的Apriori算法挖掘出强关联规则,通过一个新的相关
在纵浪上航行的船舶,当升沉(或纵摇)固有频率约为横摇固有频率的2倍时将发生参数激励主共振。本文考虑升沉对横摇的耦合作用,建立了非线性参数激励横摇运动方程。用多尺度方法对
利用乏汽余热构建新型热源方式已成为火电节能和城市清洁供热领域的重点方向。针对同时实现多台湿冷机组乏汽余热高效利用的技术难题,本文提出一种多热源梯级供热系统的构建
"两种意见"和"两种检验报告"的性质和作用问题,在司法鉴定和司法活动中是经常引起争议的理论和实践问题。本文针对当前的争议,对每个问题提出了自己的观点和解决争议的主张。
<正> 单疱角膜炎是当今世界危害最严重的感染性眼病。患眼无休止的复发性炎症,是单疱角膜基质炎致盲的主要危险。由于发病机理错综复杂,不是由单纯的病毒感染因素构成。因此,
<正> 霍桑是美国19世纪上半期著名的浪漫主义小说家。他从人性论出发,追求一种超凡人圣的、完美的精神境界,探索过去时代人性中的隐藏着的罪恶,从而相应地暗示出自己时代的各
目的:积极老龄化是使老年人的健康、参与和保障尽可能的发挥最大效益的过程,注重老年人个体身心健康、人格尊严和自我实现。本研究旨在探究北京体育大学80岁以上离退休教职工积极老龄化的程度及其影响因素,分析积极老龄化与健康促进生活方式之间的关联,从生活方式的角度指导老年人健康生活,促进社区积极老龄化的发展。方法:研究对象为北京体育大学80岁以上离退休教职工,共110人,其中男、女各55人。研究方法如下:(