基于主题句矢量模型的文本聚类研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:maomao147
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是数据挖掘领域的一个重要分支。随着互联网的飞速发展,文本形式的信息不断增多。文本聚类技术已成为对文本信息进行有效地组织、摘要和导航的重要手段,被越来越多的研究人员所关注。由于文本聚类对象的特殊性,文本数据的非结构化,使得文本具有高维性和稀疏性的特点。基于向量空间模型的文本相似性度量方法把文本看作是由一个个独立的词语组成,忽略了文本的语义信息和结构信息,使得该方法不能非常准确地计算文本之间的相似度。传统的聚类算法在面对这种特殊的聚类对象时,或多或少都存在一些不足,使得文本聚类的结果不太令人满意。针对以上问题,首先,本文将分词过后的文本通过停用词过滤、词频-逆文档频率法来选择特征项,以达到降维的目的。然后根据特征项找出文本的主题句,并计算每个句子的权重,把文本表示成主题句矢量模型。最后根据知网具有的语义关系来计算文本之间的相似性。在文本聚类算法的研究中,本文提出了一种确定聚类数目和初始聚类中心的算法。该算法主要是针对k中心点算法的缺点,根据经验规则和相似相异度函数来确定最优聚类数,通过凝聚层次聚类算法来确定初始聚类对象。论文设计并实现了一个中文文本聚类系统,并通过系统对真实语料库进行了聚类实验。实验结果表明,本文所提出的方法具有可行性和有效性。
其他文献
随着移动互联网和移动终端的快速发展,人们对娱乐和上网的要求越来越高,平板电脑已经成为人们生活中的重要组成部分。文字输入是上网过程中必要的一环,我们中国有悠久的书写历史
随着计算机技术的高速发展,分布式系统得以广泛应用,然而由于分布式系统本身还不够稳定可靠,再加上环境、人员等外在因素的影响,分布式系统具有很高的故障率,而且一旦出现故
伴随着移动互联网的发展,产生了海量的图像和视频数据,对这些图像和视频数据进行处理与编辑得到了大家的高度重视。最近提出的基于双向相似函数的方法使用双向能量函数来衡量
随着数据库技术、数据仓库技术的迅速发展,存储的数据急剧增长,传统的数据分析和查询方法已经不能满足人们对隐含在数据中的知识的渴求。知识发现是研究如何快速、准确地从杂
随着数据密集型计算需求的快速增长,采用MapReduce框架的云数据中心日益流行。其中,能耗问题已成为基于MapReduce框架的异构云数据中心当今急需解决的问题。为了能够提供超大
形式化方法(Formal Method)是基于严格数学基础的,可以得到非歧义的形式化描述规约,在软件工程领域中引入严格的数学机制,对于提高软件可靠性具有积极作用。形式化技术的使用
随着互联网Web2.0时代的来临,Web应用呈现出爆炸性的发展,能否灵活应变需求、快速开发、迅速接收用户反馈并更快地做出调整("Agile"即敏捷)成为了Web开发的关键。同时,在注重
二维-三维图像配准方法作为医学图像配准领域研究的一个分支,是当前研究的热点之一。其最典型的应用实例是介入外科手术导航中。由于二维医学图像缺乏三维空间信息无法为临床
近年来,随着互联网技术的快熟发展,涌现出了一大批在线社交网络,如:国外的Facebook、Twitter、YouTube,国内的人人网、新浪微博等。微博作为一种新兴的在线社交网络,是现实社会的人
随着互联网技术的高速发展,网络上的信息出现了爆炸性的增长。这种增长使得人们可以有机会从更多信息源了解和获知他人的信息、想法、态度和意见。而这些主观性的评论,无法通过