【摘 要】
:
随着上世纪90年代初信息化社会的到来,网络已经变得越来越普及,它已经成为了人们获取各类数据的有效手段和方法。那么如何从海量的文本数据中找到人们所需的信息就成为了亟待
论文部分内容阅读
随着上世纪90年代初信息化社会的到来,网络已经变得越来越普及,它已经成为了人们获取各类数据的有效手段和方法。那么如何从海量的文本数据中找到人们所需的信息就成为了亟待解决的问题。文本挖掘研究由此应运而生。文本聚类是文本挖掘领域中一个重要分支,研究它有着重要而深远的意义。本文先是通过结合了改进的人工免疫算法去解决K-Means算法初始聚类中心敏感的问题,使得其聚类中心更加的合理以便得到更优的聚类结果。这是第一个阶段,目的是得到优化的初始聚类中心。第二阶段利用了De Castro于2002年提出的aiNet网络模型对已经具有相对优化的中心的Web文本进行聚类。本文首先阐述了Web文本聚类的国内外研究现状和现存的问题,然后介绍了文本聚类的相关过程,从预处理,文本模型表示,到常用的聚类算法,并对这些聚类算法的优缺点进行了评析。文中分析了传统人工免疫算法存在的问题,提出最佳策略对三个人工免疫遗传算子进行改造来加快算法的收敛速度,保证后代的最优性。最后改进了用于聚类的aiNet网络模型中亲和度的计算方法,对变异过程进行了部分控制,克服了其用于度量高维文本聚类相似度不精准的缺点。实验结果表明,本文中改进的算法有较好的动态适应性,并且改善了聚类的质量。
其他文献
分类问题是数据挖掘领域中最基本和最重要的问题之一,在计算机视觉、自然语言处理、生物特征识别和医学诊断等领域都有着广泛的应用。最近邻算法是一种常见的分类算法:给定一
态势感知的概念源于军事界,在航天飞行的人因研究,军事战场中的局势评估,核反应堆的控制和医疗调度等方面都有广泛应用。网络安全态势感知是态势感知技术在网络中应用的一种
信息的共享和网络的开放给我们带来了便利,同时也对信息安全提出了更高的要求。网络与信息安全已经成为信息系统的关键问题。本文研究生物免疫系统的学习与检测机制,入侵检测
随着应用需求及相关技术的发展,计算机仿真技术朝着分布交互仿真方向发展,在经历了若干发展阶段之后,新一代仿真技术框架HLA成为当今分布交互仿真发展的最新方向。HLA框架下,
网格生成是计算机工程的重要研究课题,在结构力学和数学计算中具有非常广阔的应用。曲面网格作为网格的一种,在网格生成技术中有着非常重要的地位,也是当今研究的热点。本文
随着网络技术和计算机软件的发展,分布式系统广泛应用于电信、金融、电子商务等领域。由于企业业务量的加大,分布式系统承载的负担越来越重,严重影响着企业对外提供服务的质量。
脱机手写体汉字识别是模式识别中的一个重要研究课题。同时,汉字作为一种世界上最古老的文字,其具有数量巨大,结构复杂,相似字多等特点,因此手写体汉字识别又是模式识别领域
近几年,云计算的快速发展使得作为其一种典型应用方式的云存储也受到社会各界的极大关注。云存储其实就是一种云计算系统,主要就是通过互联网技术、分布式计算等,把存储系统
在Internet成为主流软件运行环境之后,网络的开放性和动态性使得软件的变化性和复杂性进一步增强。由于具有持续可用性的优点,动态演化已成为软件工程研究的热点。软件体系结
电信业务支撑系统是电信运营商的一体化、信息资源共享的支撑系统,它具有处理性能要求高、系统可靠性要求高和数据安全性要求高等特点。数据网格是一种先进的计算基础设施结构