针对非平衡警情数据改进的K-Means-Boosting-BP模型

来源 :中国图象图形学报 | 被引量 : 0次 | 上传用户:hulielie310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的掌握警情的时空分布规律,通过机器学习算法建立警情时空预测模型,制定科学的警务防控方案,有效抑制犯罪的发生,是犯罪地理研究的重点。已有研究表明,警情时空分布多集中在中心城区或居民密集区,在时空上属于非平衡数据,这种数据的非平衡性通常导致在该数据上训练的模型成为弱学习器,预测精度较低。为解决这种非平衡数据的回归问题,提出一种基于KMeans均值聚类的Boosting算法。方法该算法以Boosting集成学习算法为基础,应用GA-BP神经网络生成基分类器,借助KMeans均值聚类算法进行基分类器的集成,从而实现将弱学习器提升为强学习器的目标。结果与常用的解决非平衡数据回归问题的Synthetic Minority Oversampling Technique Boosting算法,简称SMOTEBoosting算法相比,该算法具有两方面的优势:1)在降低非平衡数据中少数类均方误差的同时也降低了数据的整体均方误差,SMOTEBoosting算法的整体均方误差为2.14E-04,KMeans-Boosting算法的整体均方误差达到9.85E-05;2)更好地平衡了少数类样本识别的准确率和召回率,KMeans-Boosting算法的召回率约等于52%,SMOTEBoosting算法的召回率约等于91%;但KMeans-Boosting算法的准确率等于85%,远高于SMOTEBoosting算法的19%。结论 KMeans-Boosting算法能够显著的降低非平衡数据的整体均方误差,提高少数类样本识别的准确率和召回率,是一种有效地解决非平衡数据回归问题和分类问题的算法,可以推广至其他需要处理非平衡数据的领域中。 OBJECTIVE To grasp the spatial and temporal distribution of police intelligence, establish the prediction model of police intelligence space-time based on machine learning algorithms, formulate a scientific police prevention and control plan and effectively suppress the occurrence of crime, which is the focus of criminal geography research. Studies have shown that the spatiotemporal distribution of police intelligence is mostly concentrated in central urban areas or densely populated areas and belongs to non-equilibrium data in time and space. The unbalanced nature of such data often leads to the weak learner being trained on this data. The prediction accuracy Lower. To solve the problem of regression of this non-equilibrium data, a Boosting algorithm based on KMeans means clustering is proposed. Methods Based on the Boosting integrated learning algorithm, this algorithm uses GA-BP neural network to generate base classifiers and integrates base classifiers with KMeans average clustering algorithm so as to promote the weak learner to be a strong learner. Results Compared with the commonly used Synthetic Minority Oversampling Technique Boosting algorithm (SMOTEBoosting algorithm), this algorithm has two advantages: 1) reducing the mean square error of few classes The overall mean square error of the data, the overall mean square error of the SMOTEBoosting algorithm is 2.14E-04, and the mean square error of the KMeans-Boosting algorithm reaches 9.85E-05; 2) the accuracy of the minority class sample identification and Recall rate, KMeans-Boosting algorithm recall rate is equal to about 52%, SMOTEBoosting algorithm recall rate is equal to 91%; but KMeans-Boosting algorithm accuracy is equal to 85%, much higher than 19% SMOTEBoosting algorithm. Conclusion The KMeans-Boosting algorithm can significantly reduce the overall mean square error of non-equilibrium data and improve the accuracy and recall of minority samples. It is an effective algorithm to solve the problem of non-equilibrium data regression and classification, and can be extended to Other areas need to deal with non-equilibrium data.
其他文献
手机是信息时代的产物,它给人的工作、生活、学习和交往都带来了许多便利。尤其是21世纪的智能手机,它功能广泛、操作简单、普及率高等特点,为教师创设教学新场景和构建教学
《课程标准》明确指出:"课程应该是开放而富有活力的。"所以,要让课堂"流动"起来,要在交流与互动中焕发活力,通过与文本、与教师之间的多向交流,碰撞出思维的火花,促进潜能的发挥,
笔者通过多元调查,科学地分析当前留守儿童不喜欢完成家庭作业的现状,深入探究教师在教学中家庭作业设计与布置中出现的问题与不足,通过长达一年的教学实践与研究探索,寻找行之有
论文结合智慧城市数字化、网络化、智能化的特点,详细分析其对档案信息服务模式组成要素所带来的新变化,包括:服务主体在服务理念和服务能力的变化、服务客体在用户类型和需
课程是学校教育工作的核心,教材是课程的载体。教师的教学方式已逐渐日趋多样化,为了打破传统教学中出现的弊端,探究式教学应运而生。探究式教学在小学数学教学课堂中的应用,有效
初中学生在作文时,往往不会选题、不会集材、不会谋篇、不会措词,习惯于让老师给他们命题、提示,甚至提供题材。面临这种局面,我们作文教学改革改革。
提问是课堂教学的重要方式之一,师生之间通过问答形式的对话,进行知识的传承、情感的交流、思维的碰撞,在言语互动中建构知识,发展思维。科学而艺术的提问可以激发学生的学习
多媒体运用于教学使教学手段更加丰富,让学生、教师耳目一新,充分显示了它的优越性,同时也暴露出一些弊端。作为教师和学校,应发展地、科学地运用多媒体教学的理论和方法。
通过对美国不同阶段相关社会主流思潮的归类分析,挖掘其时美国现代城市设计实践的影响.
通过对温州市世纪广场空间体验的具体描述,分析了空间组合与空间标注在广场设计中的应用