【摘 要】
:
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够快速、有效地发现资源和知识的工具。近年来针对文本数据的文本聚类已逐渐成为
论文部分内容阅读
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够快速、有效地发现资源和知识的工具。近年来针对文本数据的文本聚类已逐渐成为人们研究的新课题,已经引起了人们的广泛重视。但是国内中文文本聚类的研究还处于初期阶段,还存在许多问题亟待解决。本文首先对文本聚类的研究背景和国内外的研究现状进行了介绍,并分析了数据挖掘的相关概念、主要的聚类分析算法以及支持向量机理论。其次,针对汉语自身的特点分析了中文文本聚类中所涉及到的关键问题及技术,包括中文切词技术、中文文档特征表示:向量空间模型(VSM)和特征降维的方法,并提出了广义特征降维的理念。然后,结合自组织特征映射神经网络(SOM)和支持向量机理论(SVM)给出了一种文本聚类算法—支持向量机的神经网络中文文本聚类算法(SVM-SOM),阐述了算法原理,分析了算法的收敛性并列出了算法步骤。最后,根据上述研究,本文实现了SOM和SVM-SOM算法,并在此基础上,利用现实领域中提供的语料库对聚类效果进行了测试,同时利用F值、查准率和查全率对两种算法进行了对比实验,并通过加入噪声数据测试了两者的鲁棒性。从实验结果来看后者可以提高聚类效果并具有更好的鲁棒性。
其他文献
数值方法是数学的一个分支,它的研究对象是利用计算机求解各种数学问题的数值方法及有关理论,其内容主要包括非线性方程(组)的数值解法,求解矩阵特征值,多项式求根问题等。迄
基于内容的图像检索技术的研究融合了非常多计算机领域的技术成果,比如说,有计算机视觉、图形图像处理、图像理解和数据库,它是技术成果的产物,是一种利用一幅图像所包含拥有
随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与
基于榕树型拓扑的铁路无线Mesh网络结合了总线型和星型拓扑的优点,为将宽带Internet延伸到铁路沿线提供了一种更为合理的解决方案。但是,无线Mesh网络的传输性能随着无线跳数
With the rapid growing demandsfrom industrial and academic communities,we need powerful tools to deal with the optimization problems or explore useful knowledge
软件定义联网(SDN)技术自提出以来,引发了人们对它的不断思考、讨论和实践。针对可能出现的大规模SDN网络的部署和应用,SDN的集中控制技术面临一些技术问题。研究SDN网络控制
近年来,电子计算机发展迅速,应用广泛,在各个领域内,实验方法已经逐渐超越和代替了科学计算,科学计算将是科学研究的第三种方法,它已显得越来越重要。数学的一个重要分支是计
评价一个算法的标准有很多,复杂度是其中一个重要标准,好的算法可以节省解决问题的时间成本。本文的目的就是结合权函数神经网络理论与算法复杂度基础,推导分子三次分母一次
近年来,P2P网络成为互联网中最受欢迎的应用系统之一。P2P网络中不会区分服务提供者和服务消费者,网络中所有节点地位平等,它们既可提供服务也可使用服务。但是,正是由于P2P
随着计算机和通信技术、宽带网络技术、音视频压缩技术以及计算机硬件技术的发展,视频数据的存储和传输不再是一件困难的事情。数字视频也越来越广泛地融入于人们的生活空间