文本聚类中参数自动设置技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:cares
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库中和网络上文本资源、Web页面的激增,人们需要对大量的文本资源进行有效的组织,以有利于信息检索、模式发现、为用户提供推荐服务,以及为进一步的文本分类提供模式基础。于是,文本聚类技术应运而生。文本聚类,即将给定的文本集合划分为多个簇,从而达到簇内文本的主题相关性,簇间文本的主题无关性的目的。 文本聚类中首先需对文本进行预处理,将非格式化的文本转化为格式化数据,再使用经典的聚类算法进行聚类。目前主要的文本聚类算法有基于划分的算法,典型的如K-Means和K-Medoids算法;基于层次的聚类算法,典型的如HAC(凝聚的层次聚类算法);基于神经元网络的算法,如SOMs(自组织映射网络);以及基于模型的聚类算法。上述算法各有其优缺点,其中大多数算法都需要用户输入关键参数、即阈值(如K-Means、K-Medoids、SOMs和模型方法),而无需参数输入的算法则时间效率过于低下(如HAC)。为解决文本聚类中的参数设置问题,本文提出并实现了支持典型文本聚类算法中参数自动设置的算法。 首先,在特征选取方面,本文提出了“最大序列频繁词组”的概念,并通过挖掘最大序列频繁词组获取文本特征,以克服最常用的TFIDF方法忽略了词与词之间关系的缺点,使抽取的特征表示文本内容的准确程度大大提高。 在使用K-Means进行文本聚类的研究中,针对K-Means算法在文本聚类中的缺点,本文提出了利用对多次取样聚类以确定参数K的方法,使得参数确定过程自动化;同时在K-Means方法中引入了衰减因子,在划分过程中动态地改变簇均值,以提高聚类质量。 为了克服K-Means方法对孤立点敏感性的缺点,并进一步提高聚类的质量和时间效率,本文将基于密度的聚类算法应用于文本对象之上。在基于密度的文本聚类算法中,提出了一种利用曲线拟合自动确定参数的方法,利用自动参数确定技术,对簇进行收缩以得到细化簇。 实验表明,参数自动设置技术使文本聚类过程更加自动化,同时提高了文本聚类的质量和效率,产生了更好的聚类结果。
其他文献
本论文以皮革自动切割CAM系统为背景,以鞋样为主要研究对象,研究了图形的矢量化及检测技术,实现了闭合曲线的高精度矢量化,解决了项目中鞋样的精确匹配问题。 本文所作的主要
随着科技和经济的高速发展,信息技术带给人类的影响日益扩大,尤其是网络的发展使计算机的应用日益普及.同时也使得信息的安全问题日渐突出而情况也越来越复杂。信息安全的重要
随着数据库与互联网技术的发展,人们每天可以获得的数据及信息量呈指数级增长。为解决随之带来的如何从浩瀚的数据海洋中提取有用的知识以便为决策者提供决策支持的问题,数据挖
随着海洋事业的发展,水下传感器网络越来越受到关注。在海洋监测、海洋信息采集、灾难预防以及辅助导航等方面,拥有广泛的发展前景。水下定位问题作为水下传感器网络的关键部
有关数据流上的变化的挖掘算法研究是近期数据流研究领域的核心内容之一。该文挖掘算法研究的第一部分:已有的研究工作大多数是针对模式、分类等的变化进行探索,其方法以及得
人脸检测作为人脸信息处理中的一项关键技术,近年来成为模式识别与计算机视觉领域内一项受到普遍重视、研究十分活跃的课题。今天,它已远远超出了人脸识别的范畴,在出入安全
随着网络信息的飞速增长,Internet发展为当今世界上规模最大的信息库,己成为人们获取信息资源的重要来源。伴随计算能力的增长,智能算法的运用及大规模数据存储技术的成熟,面对缤
学习资源库是网络远程教育的核心。由于现有学习资源库中资源描述格式的不一致,以及资源调用方式的不同,造成了外部应用系统无法共享学习资源库中存储的学习资源,严重阻碍了
IPv6网络技术虽然已经得到广泛运用,但是它和IPv4还要共存很长一段时间。在这种情况下,对于IPv4与IPv6网络共存、应用性研究和过渡的问题,仍是一个研究的热点,尤其是在IPv6的管理
在网络中充分发挥节点能力、多点间相互协作完成复杂的任务在军用和民用领域内有着广泛的应用,而其核心就是实现任务的协同分配。已有的任务分配方法存在集中模式中心节点负荷