基于2度频繁词序列的文本聚类算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:cherry_20050901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。文本挖掘成为人们发现资源和知识的重要工具,不需要预先定义类别信息的文本聚类成为文本挖掘一个新的研究热点。传统的聚类算法没有解决文本数据的高维度,聚类准确度低,没有为聚类结果提供一个合理的类描述等问题。基于频繁词集合的文本聚类算法采用频繁词进行聚类,解决了这些问题。基于频繁词集合的层次文本聚类算法提出了以簇为中心的思想,提供了一个便于浏览的主题层次结构,但是作为簇标签的频繁词集合有时不能很好的表示文本的语义信息。基于频繁词序列的文本聚类算法利用能够更好地反映文档的主题的频繁词序列进行聚类,提高了聚类的精确度,但是簇之间存在大量重叠。本文的主要工作如下:1.针对基于频繁词序列的文本聚类算法利用频繁词序列构建初始聚类后没有设法将文本指派到合适的簇中,造成了大量的簇间重叠。本文通过在文本中对簇标签进行2度频繁词序列的验证将文本指定到合适的簇,弥补了基于频繁词序列文本聚类算法的不足,提高了聚类的精确度。2.向量空间模型进行文本表示时忽略了特征词之间次序的语义信息。本文提出了2度频繁词序列的概念,用2度频繁词序列构建了一种新的文本表示模型,该模型保留了文档中的频繁词序列和序列中的词语,更好的表达了文本的语义。3.在改进算法理论的基础上,通过实验与基于频繁词序列的文本聚类算法进行比较。实验结果表明:改进的算法在一定程度上解决了基于频繁词序列的文本聚类算法初始聚类簇间重叠过大的问题,算法无论在传统聚类的评估标准上,还是在聚类的精确度方面都有了一定程度的提高。
其他文献
通过识别一组代表点来聚类数据对于探测数据模式是非常重要的.随机抽取数据点集然后反复修正则可以找到这些代表点,但只有当初始的选择非常好的时候这种方法才是有效的.2007
定义在V上的一个实值函数f:V→{0,1,2}称为图G=(V,E)的一个罗马控制函数,如果V0中的每一个顶点至少与V2中的一个顶点相邻,其中对于i=0,1,2,Vi={u:f(u)=i}是V中赋值为i的顶点集合.对于V
导子代数是李代数结构理论研究的一个重要方面,且它在微分几何、理论物理等其它领域也有重要应用.因此,研究李代数的导子代数是非常有必要的.复数域上半单李代数的导子代数已研
本文主要研究Banach空间上自反算子代数上Lie导子的结构,全文共分四节. 第一节介绍了一些基本概念,问题背景和主要研究内容.第二节研究了具有非平凡最大或最小不变子空间的
本篇文章我们主要研究了将Lie代数推广为Leibniz代数时,与Lie代数上的O-算子和经典Yang-Baxter方程相对应的算子和代数方程,即Leibniz代数相对于某个的双模(表示)的L-算子和Lei
滚动轴承是机械设备中使用最广泛,也是比较关键的零部件,其工作状态是否正常直接关系到整条生产线的生产质量和安全,所以滚动轴承故障的诊断和监测是研究的重点。 文章首先介
与文字相比,图形本身所具有的直观、象形以及高度信息浓缩等特性使得可视化程序设计为编程人员提供了一种比传统的文本程序设计更为直观的人机交互方式。目前存在的可视化系
种群动力学中的一个基本问题是寻求对于物种间长期共存的判断标准,而这一问题的一个重要方面是理解空间扩散和环境异质性对共存的影响情况.论文旨在探究对流环境中,三类边界条
给定任一Polish空间E和其上任意相容的可交换的右连左极马尔可夫过程族,存在唯一的M(E)值马尔可夫过程X=(Xt)。使得其半群{Tt}满足方程(公式略)。为研究概率在“流”下的演化,本
本文系统的介绍了半线性热方程的不灵敏控制问题。对于问题产生的背景、发展过程、现状及有待解决的问题进行了详细的介绍.不灵敏控制问题是能控性的一个分支,半线性热方程的不