基于非对称相似度的文本聚类方法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：tony_yang

【摘要】

：

文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之

【作者】

：

宋韶旭李春平

【机构】

：

清华大学软件学院,清华大学软件学院北京100084,北京100084

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2006年07期

【关键词】

：

机器学习文字信息处理文本聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。 Text clustering has the characteristics of data sparsity. Common clustering methods use distance-based dissimilarity. In order to enhance the distinguishing features of documents, a method based on asymmetric similarity is proposed to measure the association between document objects. Defines asymmetric similarity measures between text objects. By using the sparseness of the asymmetric similarity matrix of texts, the text objects are clustered by the partition method of strongly connected components. And through the iterative method to form the conceptual level of clustering results. Experimental results show that asymmetric similarity has higher accuracy and less execution time than distance dissimilarity. When the clustering result reaches a small number, the accuracy rate is about 20%.

其他文献

在第八期国土资源厅局长培训班上的讲话

国土资源部举办的第八期国土资源厅局长培训班今天开学了.首先,我代表徐绍史部长和部党组,对前来参加培训的学员表示热烈欢迎!从2000年开始,国土资源部在国家行政学院成功举

期刊

国土资源部局长培训班行政学国家徐绍史学员领导党组部长

路由器中网络地址翻译软件的设计及关键技术

在网络地址翻译(NAT)技术中,为了有效利用全局IP地址,提高翻译效率,提出一种可以使查找时间达到线性并且循环利用全局IPv4地址的解决方案。利用循环链表分配地址和端口,利用

期刊

计算机网络网络地址和端口翻译地址池映射表项

灵感与汗水

很多外资企业都是将99%的汗水拿来专注于做一种产品,也正因为如此,才成就了各家企业在行业内的百花齐放。想必很多人在中学甚至小学阶段,就多次读到爱迪生的这句话:“天才就

期刊

浅谈法与道德的关系

[摘要]无论是在法的建立，还是在法的执行上，法与都与道德总是存在着千丝万缕的联系。法与道德的关系究竟是法独立于道德，还是应该将道德视为法建立的基础，或者法仅仅只是道德的一部分，对此不同的流派和学者有不同的见解。本文通过对不同学者法与社会关系的浅要概述，再结合我国当今社会的法制建设过程中的现状，浅述法与道德相互影响又不能逾矩的微妙关系。　　[关键词]法；法律；道德　　在曾经轰动一时的彭宇案中，法官似

期刊

法法律道德

海南台网地震震级受热带气旋影响程度的初步研究

本文通过对荣华二采区10

期刊

青藏高原隆升全球变冷柴达木盆地红沟剖面孢粉

广告耗材公司存货成本控制研究——以S公司为例

中小型广告耗材公司普遍存在因管理不善引起的经营问题,其中薄弱的存货成本控制尤为突出,极易造成企业失去竞争优势,控制存货成本已引起众多企业管理者的高度重视。本文以S公

期刊

存货成本库存管理方法控制

基于丛同态的部分盲签名方案

为满足电子世界一种特殊的签名需要,利用丛同态理论设计了一种部分盲签名方案。利用归约方法证明具有多项式计算能力的攻击者无法伪造一个可以通过验证的部分盲签名。也不能

期刊

部分盲签名验证丛同态离散对数因子分解

群众文化的社会功能和文化价值浅析

[摘要]自改革开放以来，我国经济、政治、文化、国防等事业都进入到一个崭新的发展时期，文化建设更是呈现出百家争鸣的新局面。群众文化作为我国文化建设的重要组成部分，其社会地位和功能越来越突出。本文从群众文化的内涵入手，就其社会功能和文化价值做了详细深入的阐述。　　[关键词]群众文化；社会功能；文化价值；文化建设　　近些年来，借助改革开放的东风，我国政治、经济、文化以及社会其他事业都进入到发展的新阶段，

期刊

群众文化社会功能文化价值文化建设

基于非对称相似度的文本聚类方法

其他学术论文