论文部分内容阅读
随着信息科技的快速发展和大数据的普及,对数据分析的需求变得越来越大,近年来,数据挖掘技术受到了广泛的关注,它是一种将大量的数据转换为有用的信息,并且发现数据和信息之间联系的技术。分类算法是数据挖掘领域重要研究的内容之一,它主要是根据各种分类器将数据集中的数据项划分到某一个固定的类别中。贝叶斯算法是分类算法中的经典算法,贝叶斯算法是以概率统计为基础的可能性推理方法,通过先验概率来计算后验概率。由于其较小的误差率,一直被广泛运用于各个领域。贝叶斯方法主要分为贝叶斯方法和贝叶斯网络。朴素贝叶斯方法是贝叶斯方法的一种简化方法,本文主要针对朴素贝叶斯方法进行了相关研究。本文主要在朴素贝叶斯算法的基础上进行了以下几个方面的改进。(1)数据集在分类的过程至关重要,数据在收集过程中经常会出现不完整的现象,针对数据集出现缺失属性值的问题,本文提出了一种快速聚类算法对缺失的数据集进行填充,首先对数据集进行分离形成完备数据集和缺失数据集,之后使用快速聚类算法对完备数据集进行聚类,最后根据缺失数据项与聚类中心的相似度对缺失值进行填充,以此来获得一个完整的数据集。实验结果表明,基于快速聚类算法的朴素贝叶斯分类模型(Fast Cluster Naive Bayes,FCNB)能够正确地填充缺失的属性值,从而提高分类的正确率。(2)针对两类分类问题的特点,即在数据集中正例和反例所占的比例不同,提出了一种基于K值的朴素贝叶斯分类模型(K Naive Bayes,K-NB),该方法引入了一个概率比值K,通过比较待检测数据项属于两个类别的概率比值和阈值K的大小,当属于两个类别的概率比值大于K时,才对待检测的数据项进行归类。实验结果表明,对于两类分类问题,相对于其它的改进算法,K-NB算法可以获得较高的正确率。(3)本文结合监督学习算法和朴素贝叶斯算法,提出了一种基于监督学习算法的朴素贝叶斯分类模型(Supervised Learning Naive Bayes,SLNB)。利用监督学习算法聚类速度快的特点和朴素贝叶斯算法准确率高的优点,首先使用监督学习算法对数据集的正例和反例进行聚类,形成若干个正例和反例的聚类中心,然后比较待检测的样本和正反两个聚类中心的最近距离的差值决定采用监督学习算法还是朴素贝叶斯算法进行分类,从而既保证了正确率,也具有较好的分类效率。(4)基于以上的改进,构建了 Android手机客户端钓鱼网站检测模型。首先对钓鱼网站数据进行收集,使用快速聚类算法对收集的数据集进行处理,从而获得一个完整的数据集,之后使用基于K值的朴素贝叶斯算法对网站进行分类预测,实验结果表明该模型具有较高的准确率,能有效地检测出钓鱼网站。