基于自组织映射的文本聚类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:yuhmmmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,尤其是Internet在全世界的普及和应用,网络信息成为人们取之不尽的信息来源,人们所面临的要问题不再是信息匮乏,而是如何提高信息获取和信息访问的速率。数掘挖掘技术和知识发现技术便应运产生。文本挖掘是数据挖掘中最重要的研究领域之一,文本聚类是文本挖掘中的核心技术之一,近年来文本聚类的研究取得了长足的发展。自组织映射网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。自组织映射聚类的基本思想是通过网络训练,把相似的输入映射到同个输出结点上,从而实现对输入数据聚类。本文以自组织映射网络作为文本聚类的主要框架,研究探索相关算法的优点、面临的主要问题以及相应的解决方法。本文的主要目的是研究具有更高性能的文本聚类算法。论文的主要研究工作如下:首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:分词、特征提取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。其次,针对传统SOM聚类算法需要提前确定聚类类别数目的问题,本文改进了一种基于最小最大原则的k-means文本聚类算法,用该算法来计算聚类类别数目。再次,提出一种新的基于SOM的文本聚类算法,该算法首先用改进的k-means文本聚类算法来计算聚类类别数目,将此值作为SOM网络输出层神经元数目,然后执行SOM算法进行聚类。最后,对新的文本聚类算法进行实验及分析。
其他文献
三维线条的绘制在图形学与可视化领域中有着广泛的应用,如三维模型的线绘制,弥散张量成像纤维(DTI Fibers)的绘制,以及流体可视化中流线(Streamlines)的绘制等。与其他的表现
随着经济贸易的增长,物流效率的提高成为物流产业发展的一个主题。集装箱作为物流活动中最为重要的工具之一,其优化问题的研究直接影响着企业物流费用的支出。集装箱装载问题是
自20世纪90年代以来,信息检索正在向着领域化、智能化方向发展,而提高检索的质量,推出令人满意的检索技术成为了全世界范围的研究前沿和热点。本体作为表达知识的共享概念模
目前,网络拥塞算法主要在源端、网络端和基于控制论这三个领域。本文是基于控制论这个领域进行研究。论文在介绍网络拥塞的概念、原因和研究状况的基础上,分析常见的拥塞算法
位基服务(LBS, Location-Based Service),一直以来是一个研究热点问题。随着移动互联网的迅猛发展,近几年来,智能移动终端越来越多地出现在人们的工作和生活中,扮演着举足轻
随着互联网技术的飞速迅猛发展,互联网用户可以更加容易地从网络上获取日常关心的热点话题。网络新闻已然成为人们获取新闻信息的主要媒介之一,相比传统新闻媒体,网络新闻在
查询选择率的估计是查询处理和优化的重要问题之一。在大多数数据库系统中,查询优化的任务是选择一个有效的执行计划,最优计划的选取需要对每个可选计划的代价给出精确的估计
关联规则挖掘是数据挖掘领域一个重要的研究课题,传统的关联规则挖掘中只考虑项目在事务中出现与否。然而,在一条事务中,顾客可能购买同一种商品多个,而每件商品的利润也不尽相同
组织特异性基因(TS基因)被认为是在不同的组织内表达水平差异较大、从事细胞特异性活动或者进化过程中变化较快的基因。为了分析基因表达组织特异性的因素,研究人员对基因序
布料运动仿真是近年来计算机图形学研究的一个热点,因为它在游戏、电影和服装设计方面都有很广泛的应用。不过,之前人们大多研究的对象是机织布料的运动仿真,由于针织布料自