连续属性离散化相关研究及应用

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:simon20088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的来临,带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策,是迫切需要解决的问题。数据挖掘正是在这样的背景下产生的新的研究领域,是统计学、计算机科学、模式识别、人工智能、机器学习、数据库等多领域的交叉学科。连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。本文就数据挖掘中的连续属性离散化问题进行了相关的研究。首先,讨论了连续属性离散化问题。连续属性离散化是否合理决定着表达和提取相关信息的准确性。CHI2系列算法关联着统计学理论方法,有着重要的研究价值。利用Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。提出的Bayseian-Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。其次,依据属性重要性程度对属性离散化的顺序进行了合理的调整,又提出一种新的基于属性重要性的连续属性离散化方法——属性重要度-Chi2算法,能够更准确的对连续属性进行离散化。最后,本文从应用的角度,将研究的成果应用在基于数据挖掘中的决策树技术得到的个人住房贷款信用风险评估模型之中,具有较高的准确率,能够满足实际应用的需要。
其他文献
车间作业调度问题(Job-Shop Scheduling Problem,JSSP)是最一般的,最复杂的和最具难度的生产调度问题。一般的车间作业调度中,设备资源约束是每台加工设备只有一台;因而在实际的加工调度中往往会存在对整个产品加工时间影响较大的瓶颈,对于这种情况,一般的求解方法也往往采用确定各个工序中工件的加工次序。解决瓶颈问题的一种简便方法是增加瓶颈设备,现在无论在学术界还是实际生产中对瓶颈
随着Internet的发展和普及,人类社会对网络的依赖性越来越强,与此同时,网络安全问题也日益突出。在众多网络安全问题中,分布式拒绝服务(DDoS)攻击容易实施、难以防范、难于追踪,是
针对人体组织器官的三维图像分割是医学图像分析和医疗诊断的重要前提,是医学图像三维可视化的重要研究内容。随着医学成像技术和三维可视化技术的飞速发展,计算机辅助诊断成
在中文自然语言处理中,命名实体识别(NER)是中文自动分词的一个重要步骤:同时,由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消除、未登录词的识别、实体本身的多
经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率
据调查,我国定量包装商品的需求量很大,单冶金企业每年新增和更换的各类工业计量装置就达约5000台,而其他工业及商业部门也都需要装备数量很大的电子计量装置。面对国内巨大
随着本体和语义网研究的不断发展,构建面向语义网的本体成为了一个引人关注的研究方向。目前,构建面向语义网的本体仍是一件艰难而耗时的工作。因此在本体应用中需要对网络中已
随着军事电子技术,特别是水声对抗技术的发展,对水下目标的探测、跟踪和识别提出了更高要求。传统的主动声呐系统难以满足实际战场的需求,而被动声呐定位系统因其作用距离远,
视频监控已成为现代安全防范系统的重要组成部分,无论是道路交通、仓库厂房、学校围栏、银行安保、公司安检等都采用了视频监控作为防备安全的重要工具。而嵌入在监控系统中
由于互联网络的发展,整个世界正在迅速地融为一体。计算机网络在经济和生活的各个领域正在迅速普及,整个社会对网络的依赖程度越来越大。伴随着网络的发展,也产生了各种各样