基于词频序向量模型的快速中文文本聚类

来源 :南开大学 | 被引量 : 0次 | 上传用户:pig2540840
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业特别是互联网的高速发展,人们可以很容易得从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织形式可分为:结构化的数据(如数据库记录等)、半结构化的数据(xml文档,有相对固定格式的各类格式化文档)和无结构数据(如中文文本等)。 面对浩如烟海的数据,需要使用数据挖掘技术从数据中抽取感兴趣的信息。对于结构化的数据,数据挖掘工作比较直观,但是对于一些非结构化数据(包括半结构化数据中的非结构化数据),尤其是日常生活一个重要的信息来源—中文文本,需要做特殊处理。而中文文本聚类正是中文数据挖掘的一个重要基础。 本论文先对当前文本聚类的发展现状和相关方法做简要的回顾。 模拟人在判断一篇文档时所使用的方法,本论文提出一种新的文档向量模型一词频序向量模型(FSTVM)。这个模型将一篇中文文档表示成为出现频率最高的一些词所组成的向量,在向量中这些词按频率降序排列,词在文档中的位置将是聚类所利用的主要信息。 围绕FSTVM模型,论文按照一般文档聚类过程依次给出了特征提取(词汇过滤)、文档相似度和初始聚类中心选择等的处理方法。 特征提取(词汇过滤):除了对一些表征能力较弱词性(如介词,连词等)的词做整体去除外,论文还提出一种特殊而通用的方法用以过滤文档中的常用词。 文档相似度:表示为两文档向量共享词的个数,但是根据每对共享词在两向量中出现的位置施以惩罚。 初始聚类中心选择:针对中文文档的特点需要,为每类文档随机选择多个文档,并计算他们平均值作为此类的初始聚类中心。 在论文的最后,通过对一组从高校BBS上收集的文档集试验来验证本论文向量模型以及基于此向量模型的一系列处理方法的有效性。试验结果表明论文所提出的中文文本聚类方法比较高效。
其他文献
随着计算机和通信技术的发展,Internet在过去的十几年中迅猛发展,随之而来的拥塞问题亦越来越严重,现有的拥塞控制算法远远无法满足未来网络的需要,Internet的继续发展迫切需
交通运输是国民经济的动脉,它对人民生活和社会经济发展起到了极大的作用。各种运输方式都要遇到同一个问题:在有效地的服务客户前提下,怎样去减少总的费用。 本文研究的问题
基于内容的图像检索(CBIR)是目前国内外发展很快的一个研究热点。它的研究对象是使查询者可以实现方便、快速、准确的从图像数据库中,查找特定图像的方法和技术。该项技术的应
在当前信息快速膨胀的时代,人工对文本信息进行分类是一种效率十分低下的工作。文本自动分类技术利用计算机强大的自动处理功能,极大的提高了工作的效率。目前,比较成熟的分类器
随着三维CAD技术的发展,计算机人体仿真和智能化的服装CAD系统是近年来在计算机图形技术领域经常研讨的重要课题。人体在穿着衣物后不仅要考虑其美观,而且要从服装的功效性及舒
经过三十几年的发展,人脸识别技术取得了巨大的进步,在理想的成像条件下,已经取得了显著的成果。但非理想成像条件下(如光照条件不理想,人脸的姿态发生变化等)的人脸识别技术还远
网格是继万维网之后出现的一种新型网络计算平台,支持各种资源的共享和广泛的协同工作,消除因地理位置造成的对计算资源的访问限制。网格的最终目的就是提供给用户与地理位置无
随着信息技术的快速发展和信息搜集能力的日益提高,近些年产生了一种新型的具有快速、海量、变化等特性的数据,即“数据流”。这些数据流或以静态的形式存储在企业的物理存储器
针对前期六足机器人运动控制器表现出的一些问题,如通信速率过慢,数据采集周期较长,导致主控周期长达50ms;并且系统可靠性较差,通信故障频繁,抗干扰能力差,容错能力差等,无法满足恶劣
近年来,以射频识别技术(RFID)和传感器技术为基础的物联网正在逐渐从理论研究走向实际市场应用。对象名称服务系统是物联网中重要的基础服务设施,提供物品RFID编码与存放物品信