【摘 要】
:
近年来,Internet的迅速发展给人们带来了诸多的方便,但随着互联网上信息不断动态变化,经常会出现新的文本很难用己有的分类体系来刻画。如果重新进行分类,就必须重新建立分类
论文部分内容阅读
近年来,Internet的迅速发展给人们带来了诸多的方便,但随着互联网上信息不断动态变化,经常会出现新的文本很难用己有的分类体系来刻画。如果重新进行分类,就必须重新建立分类好的训练文本集,而获得大量带有类别标注的样本的代价是很大的。因此,对文本聚类技术的研究受到越来越广泛的关注。目前比较经典的聚类方法,K-均值、模糊K-均值聚类方法只能对一些典型分布的样本奏效,都没有对样本的特征进行优化,而是直接利用样本的特征进行聚类。这样聚类和模糊聚类方法的有效性很大程度上取决于样本的分布情况。例如一类样本散布较大,而另一类散布较小的话,这些方法效果就比较差;如果样本分布更加混乱,则聚类的结果就会面目全非。核函数不仅可以把一个低维空间中的非线性问题映射到高维空间后变成线性问题,而且高维空间中特征向量的内积可以通过核函数用低维空间中的输入向量直接计算得到,从而使得计算量并没有随着维数升高而增加很多。本文在了解核函数的基本理论上,提出了基于核函数的文本聚类算法,即核模糊聚类算法。通过利用Mercer核,我们把输入空间的样本映射到高维特征空间,增加对样本特征的优化,并且在特征空间中进行聚类。目前众多聚类算法中需要事先给出聚类类别数目,如果在不了解原始数据内部结构的情况下,很难给出合适的聚类类别数目。本文在详细分析图论中连通图知识的理论基础上,提出了一种能自动确定聚类类别数目的图核聚类方法。每个数据样本看作图中的顶点V ,这样所有的数据样本就构成一个以相似度为权值的无向加权图G = ?V ,E? ,该文从图论连通图的角度定义了能充分反映最佳聚类数目的连通系数T。该系数不仅将相似的文本划分到一个连通图中,而且具有清晰的物理意义。
其他文献
OCS,Online Charging System,在线/实时计费系统,是由3GPP在TS 32.296中提出的具有开放性和通用性的实时计费系统通用参考框架,支持基于承载、会话和内容事件的统一计费。这
随着计算机网络资源相关应用重要性的快速增长,威胁这些应用的入侵行为成了一个亟待解决的关键问题。入侵检测技术是继防火墙、数据加密等传统安全保护措施后新一代的安全保
缓冲区溢出攻击是一种严重威胁网络安全与系统安全的攻击方式。由于存在缓冲区溢出漏洞的应用程序不计其数,对缓冲区溢出攻击防范技术的研究具有重要意义。 StackGuard是基
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可被理解的信息和知识的非平凡过程
随着互联网的日趋成熟,Web应用程序由于提供了丰富的用户界面和其良好的可维护性而变得越来越流行。但是,传统的Web应用程序面临着许多问题,例如较低的性能和较高的网络流量
随着人工智能的发展,图像分类技术在日常生活中逐渐扮演着重要的角色,是人脸识别、目标定位、医疗诊断等领域的核心技术。然而之前进行图像分类研究时所依赖的数据全部是经过
道路交通安全问题直接影响着社会的经济发展,人民的生活质量。高速公路交通作为道路交通的重要组成部分,因其特殊的行车环境,安全问题显得尤为突出。车辆在高速公路中高速行驶,若
航空遥感以其特有的机动灵活和反应快速的特性,在应对海上溢油等突发事件的实时动态监控中有着极其重要的作用。然而,有时会出现因溢油面积太大,一幅图像难以覆盖的情况。例如2004年12月,在珠江口发生的一起溢油事故,油污面积长9000m,宽200m。很难用一张图片来获取整个油污的全景图,需要用多幅遥感图像才能覆盖。这时如果想要得到一张油污的全景图,对多幅遥感图像的拼接工作就显得尤为重要。针对航空遥感图像
蛋白质作为由氨基酸组成的链状生物大分子,是生命中最基本的组成部分之一,它直接参与生物结构的形成,在生物功能的过程中起着重要的作用。蛋白质折叠问题是生物信息学中的主要问
随着电力电子设备的应用越来越广泛,电网变得越来越复杂,供电可靠越来越成为用户关心的问题,因此,对电网质量参数的快速、准确监测和控制,对电能质量的治理具有十分重要的意义。