基于关联信息的贝叶斯分类算法研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:s362613932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和数据库技术的快速发展,信息量呈现出爆炸式增长。大量数据中潜藏着无数有价值的信息,如何挖掘利用这些信息成为当今数据挖掘领域研究热点。贝叶斯分类算法以其简捷高效特点成为其中佼佼者。贝叶斯分类算法是一种通过类的先验概率对目标数据进行预测的方法,朴素贝叶斯分类算法是应用最为广泛、综合效率较高的贝叶斯分类算法,但其最大的弊端是假设属性之间相互独立,而真实世界中,假设往往不成立。本文将频繁项集应用在朴素贝叶斯分类算法中,可以放松独立性假设,让分类更加准确。具体研究工作为:(1)关联信息方面:本文从候选项集的产生、属性之间的关联性分别对关联规则模型以及频繁项集与朴素贝叶斯相结合的算法进行改进。具体研究工作包括:基于哈希技术的Sampling改进算法(SamplingHT),提出了新的哈希函数并利用该技术对Sampling算法中频繁项集产生过程进行改进得到SamplingHT算法,通过大量对比实验显示,新算法提高了产生频繁项集的性能,有效地降低了对数据库的扫描次数,达到优化的目的。(2)分类信息方面:本文提出了基于频繁项集的贝叶斯分类改进算法WM-FISC, FISC是经典的频繁项集与贝叶斯分类算法相结合的方法,通过SamplingHT算法产生的具有属性关联的频繁项集来做分类算法中的训练集,以此来放松独立性假设,再通过M-估计和加权方法对FISC进行改进,进一步解决朴素贝叶斯分类算法中属性独立性的缺点。通过实验显示,WM-FISC算法的性能强于FISC算法,且好于一些其他贝叶斯分类算法。(3)实际应用方面:将本文提出的SamplingHT算法和WM-FISC算法应用在冠心病中医辅助诊疗系统中,成功地挖掘出中医诊疗数据库中所隐含的关联规则以及对病人病症的分类,在冠心病的诊疗过程中起到了有效的辅助作用。
其他文献
半导体技术的飞速发展使微处理器的运算能力迅速提升,但访存速度的增长却相对缓慢,“存储墙”问题日益明显。存储系统有限的片外带宽已经成为阻碍程序整体性能提升的瓶颈。分
生物信息学中的一个重要研究内容就是对基因转录调控的研究。转录因子结合位点的正确识别既是揭示转录因子功能的关键之一,又是理解基因转录调控机理的重要环节。转录因子是一
中文Web文档的自动分类主要还是以文本分类的算法思想为基础来进行的。但由于中文Web文档的数量巨大,内容多样,噪音繁多,很多比较成熟的文本分类算法直接应用到网页分类之后,
图像边缘检测是图像处理过程中的重要步骤之一,是虚拟手术系统中进行三维建模的基础。但是数字人体图像通常是多目标图像,参数轮廓模型不能处理该问题,多目标图像分割问题在
多年来,随着通信技术和数字信号处理技术的飞速发展,DSP芯片技术应用日益广泛。信号分析是一项通过逆向推理手段对信号进行分析的技术。DSP芯片在信号分析中也有着广泛的应用
虚拟现实技术是计算机技术高度发展的综合技术,它朝着沉浸,交互,想象的特征方向发展。多台PC机的集群机器驱动的基于大屏幕投影的虚拟现实环境在国内出现,并在视景仿真,教学,
网格计算是分布式计算的一种,是解决科学计算、工程计算和商业计算等大规模计算的下一代极具潜力的计算平台。网格将在地理位置上分布的异构的各种高性能计算资源整合起来,将
指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都涉及到指代消解问题。核函数的研究和使用是当前机器学习研究领域
对一些信号的监测尤其是对电压、电流、温度等模拟量的监测有着很广泛的应用,通过监测到的数据,可以对系统相关设置进行及时调整,为人们的生产生活带来便利与保证。系统采用Actel公司先进的模数混合FPGA以及Actel公司的SOPC设计解决方案,单芯片实现以CortexM1处理器为核心的片上监测系统。它可以完成对电压、电流、温度等模拟量的监测,系统模拟模块将采集到的数据ADC后送给处理器Cortex-M
学位