基于One-class SVM的多球体文本聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:llww6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息爆炸的互联网时代,随着web文本数量的规模不断增大,人们要从这些海量的文本信息中快速有效地找到自己想要的信息,仅靠人工的分类方法是行不通的,而文本聚类技术正好凭借其优秀的文本自动化分类能力为此提供了解决之道。研究表明,传统的基于划分的聚类算法比如K-均值算法,存在以下两个缺点:第一是不能很好地识别非球状或者大小各异的聚类簇;第二是对预先设定的聚类数目K值敏感。针对第一个问题,本文采用了一个核方法,也称为One-class SVM,它通过一个核函数,在输入空间和特征空间之间建立一个非线性映射,通过计算得到一个半径最小的且包含该类所有数据点的超球体,超球体的球面就是聚类边界,边界上的数据点称为该聚类簇的支持向量,这些支持向量就代表了一个聚类簇。其实,One-class SVM可以看成为一个二值分类器,但是,实际遇到的问题大部分属于多值分类情况,为此,本文通过构造K(K为聚类数)个One-class SVM分类器,来解决多分类问题。针对第二个问题,本文将核方法运用到CDBW评价函数,引入了一个基于核方法的评价函数KCDBW,动态地对每次聚类结果进行评价,并记录最优聚类结果,以找到最优的聚类数目。基于以上两点,本文设计了一种新型的基于核方法的动态划分文本聚类方法,即基于One-class SVM的多球体文本聚类算法,它的主要思想是:首先采用LSA,即潜在语义分析方法来缩减文本向量空间模型维数,其次,采用One-class SVM对每个聚类簇进行训练,得到相应的支持向量机模型,并利用聚类评价函数KCDBW指导文本聚类,最终得到最优的聚类数目。为了评判本文给出的一种基于核方法的动态划分文本聚类算法的聚类效果,本文首先设计实现了一个实验平台,然后在三种数据集包括人工数据集,UCI数据集以及搜狗文本数据集上,分别使用了本文方法和传统的聚类算法对其进行了聚类实验,最终的实验数据说明了本文设计的一种基于核方法的聚类评价函数KCDBW对聚类过程具有很好的指导意义,本文给出的一种基于核方法的动态划分文本聚类算法比传统的聚类算法具有更好的聚类效果。
其他文献
随着无线通信技术的快速发展,无线传感器网络以其组网迅速、成本低、灵活性高、网络动态性强等特点,在众多领域有着广阔的应用前景。但由于传感器节点的计算及存储能力有限、
节能和环保是能源领域中研究的重要科学问题,随着新能源的开发和对绿色能源的渴求,并综合考虑能源利用率与环境因素的影响,在配电侧接入小型的分布式能源已成为智能配电网发展的
不经意传输(OT)允许通信双方以不经意的方式传送消息,最终使接收方获得发送方的某些消息并保护接收方的隐私不被发送方获取。在密码学中,不经意传输协议是一个非常重要的基本原
二维码作为一种新的信息存储和传递技术,具有可靠性高、信息容量大、保密防伪性强等优点,已经被广泛的应用到生活中各个领域,极大的推动了经济的发展。随着智能手机的普及、
随着计算机技术和网络技术的飞速发展,数字图像在网络中的传输已经变得越来越普遍。正因为如此,数字图像信息的安全和保密问题日益成为了人们关注的焦点。由于图像自身的数据量
随着智能手机的大众化,移动应用层出不穷,要在众多的应用中得到用户的青睐,除了功能实用外,该应用的用户体验势必也是绝佳。按照传统的开发方式,应用需要频繁更新,而每更新一
随着互联网的广泛使用,论坛、微博等多种网络应用作为一种在线交流方式深入到人们日常生活当中,这些网络交流媒介会使得信息在几小时甚至几分钟内得到广泛的传播,如果不对这种瞬
由于传统工业生产对方便、快捷的无线通讯方式的渴望,蓝牙技术及二维码技术被应用于工业生产。但工业生产有其特有的安全性与复杂性要求,在信息的管理及操作的安全性方面还有
计算机技术的发展,特别是网络技术发展,把IT技术推向了新的高度,甚至有人称其为第三次工业革命。随着人们对计算机要求越来越高,软件产品随着人们应用的增加,以井喷似的方式发展起
生物生态组合污水处理是将传统生物处理系统和生态处理系统联合起来对污水进行处理。如果能对其建立精确的污水处理模型,从而实现生物段生态段污水处理负荷的合理分配,在保证污