论文部分内容阅读
网络技术迅速发展的今天,人们越来越感受到了信息的冲击,而文本是信息的重要载体,人们日常生活中所接触到的信息有80%左右以文本的形式存在。信息内容和格式的多样化、复杂化,使人们无法遍历所有感兴趣的内容,而且又不存在标准的文本分类准则,所以管理收集到的文本信息成为亟待解决的问题,对于文本聚类技术的研究更显重要。现有的文本聚类方法大多采用基于VSM的关键词匹配来计算文本间相似度,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之间的联系,导至文本的相似度计算不够精确,所以本文从语义上具体分析文档,利用文本具体语义计算文本间的相似度,使得文本聚类结果更合理,主要工作及创新点有:1、以《知网》作为语义的本体,利用语义距离计算文档间相似度,把文档间相似度计算具体转化为词语间语义距离、义原间语义距离。考虑到文本聚类具体应用,本文根据《知网》描述各个词的规律,改进现有词语相似度计算方法,更有利于发现词语的相关性,适应了文本聚类的要求。2、文本聚类算法主要采用一次遍历聚类算法即最近邻聚类算法,并提出第二次聚类方法改进最近邻算法对输入次序敏感的问题。类中心方面,引入相似权重的概念,并根据权重优胜略汰候选类特征词,使得最后选择的类特征词能够代表类的主题,达到文本聚类的目的。论文最后实验语料来源于中科院的中文自然语言处理开放平台(CNLP)网站,下载了100篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与基于VSM的K-Means聚类算法进行了比较,结果证明本文所提出的基于语义距离文档聚类算法在聚类精度和召回率上都优于基于VSM的K-Means聚类算法,达到了算法改进的目的。另外基于语义距离的文档聚类结果显示它还能从语义上更加细分主题,为用户收集文本信息提供更好的导航。