基于非对称相似度的文本聚类方法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:tony_yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。 Text clustering has the characteristics of data sparsity. Common clustering methods use distance-based dissimilarity. In order to enhance the distinguishing features of documents, a method based on asymmetric similarity is proposed to measure the association between document objects. Defines asymmetric similarity measures between text objects. By using the sparseness of the asymmetric similarity matrix of texts, the text objects are clustered by the partition method of strongly connected components. And through the iterative method to form the conceptual level of clustering results. Experimental results show that asymmetric similarity has higher accuracy and less execution time than distance dissimilarity. When the clustering result reaches a small number, the accuracy rate is about 20%.
其他文献
国土资源部举办的第八期国土资源厅局长培训班今天开学了.首先,我代表徐绍史部长和部党组,对前来参加培训的学员表示热烈欢迎!从2000年开始,国土资源部在国家行政学院成功举
在网络地址翻译(NAT)技术中,为了有效利用全局IP地址,提高翻译效率,提出一种可以使查找时间达到线性并且循环利用全局IPv4地址的解决方案。利用循环链表分配地址和端口,利用
很多外资企业都是将99%的汗水拿来专注于做一种产品,也正因为如此,才成就了各家企业在行业内的百花齐放。想必很多人在中学甚至小学阶段,就多次读到爱迪生的这句话:“天才就
期刊
[摘要]无论是在法的建立,还是在法的执行上,法与都与道德总是存在着千丝万缕的联系。法与道德的关系究竟是法独立于道德,还是应该将道德视为法建立的基础,或者法仅仅只是道德的一部分,对此不同的流派和学者有不同的见解。本文通过对不同学者法与社会关系的浅要概述,再结合我国当今社会的法制建设过程中的现状,浅述法与道德相互影响又不能逾矩的微妙关系。  [关键词]法;法律;道德  在曾经轰动一时的彭宇案中,法官似
本文通过对荣华二采区10
中小型广告耗材公司普遍存在因管理不善引起的经营问题,其中薄弱的存货成本控制尤为突出,极易造成企业失去竞争优势,控制存货成本已引起众多企业管理者的高度重视。本文以S公
为满足电子世界一种特殊的签名需要,利用丛同态理论设计了一种部分盲签名方案。利用归约方法证明具有多项式计算能力的攻击者无法伪造一个可以通过验证的部分盲签名。也不能
[摘要]自改革开放以来,我国经济、政治、文化、国防等事业都进入到一个崭新的发展时期,文化建设更是呈现出百家争鸣的新局面。群众文化作为我国文化建设的重要组成部分,其社会地位和功能越来越突出。本文从群众文化的内涵入手,就其社会功能和文化价值做了详细深入的阐述。  [关键词]群众文化;社会功能;文化价值;文化建设  近些年来,借助改革开放的东风,我国政治、经济、文化以及社会其他事业都进入到发展的新阶段,