基于NMF算法的文本聚类研究

被引量 : 0次 | 上传用户:fwaiting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、文本聚类、信息检索、图像分割等领域。近年来,网上电子文档的数量以指数级的速度增长,这使得文本聚类在信息检索和信息管理等方面变得越来越重要。文本数据具有高维、稀疏等特点,这使得许多聚类算法不能直接用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。向量空间模型是常用的文本表示方法之一,由于文本的高维、稀疏等特点,本文将非负矩阵分解算法(Non-negative Matrix Factorization,简称NMF)应用到文本聚类中去。非负矩阵分解算法是一种比较新的特征抽取方法,由于对分解结果加上了非负的限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,并且它的分解结果具有很高的可解释性。本文首先介绍了非负矩阵分解的基本思想和基本算法,由于非负矩阵分解算法收敛速度较慢、容易收敛到较差的局部最优解,因此本文对NMF算法进行了改进,使用模糊C-均值(Fuzzy C-Means,简称FCM)算法对其进行初始化。其次,由于文本集的规模很大,对聚类算法的要求就更为严格,标准的k-means算法需要在每一次迭代中计算每一个样本点到所有聚类中心的距离,这样浪费了很多计算时间,尤其是数据量特别大时,针对此问题本文提出了改进的k-means算法。由于很多聚类算法在聚类之前都需要人为的输入聚类数目,而具体的聚类数目事先并不知道,针对该问题本文提出了FGClus聚类算法。通过实验验证了改进的k-means算法和提出的FGClus算法的有效性。最后,本文将NMF算法和改进的NMF算法与k-means算法、改进的k-means算法和提出来的FGClus算法进行集成,通过实验证明使用NMF与各聚类算法集成得到的聚类结果都优于直接使用聚类算法对高维的稀疏文本向量进行聚类得到的结果,而且通过对NMF算法进行改进,不仅能产生更加准确的聚类结果,而且提高了算法的运行效率。
其他文献
以化石燃料为主的能源资源因其不可再生性,易出现资源短缺、供给危机,从而成为经济前进的隐患。以风能、太阳能、生物能等新能源的开发与利用在协调经济增长与环境保护方面找到
沈括作为北宋的一位政治家、科学家,在其从政的同时,从事科学研究,著成了《梦溪笔谈》.他对数学领域的精湛研究,不仅有独创精神,而且有重大突破和重要成果,因此沈括堪称一位数学家。
独生子女由于受到家庭、社会的影响,使得其与普通大学生在就业上存在更多的问题。所以,我国高校应当对独生子女大学生就业上进行积极地引导,努力提升其心理承受能力与适应能
我国中低度白酒生产中会产生浑浊和失光等问题,活性炭除浊目前是较为经济和有效的方法。椰壳作为林业副产品可以制备高性能的活性炭,以椰壳为碳源制备酒类处理专用的活性炭,其经
目的探讨急性脑卒中患者并发肺部感染的相关因素及其对患者预后的影响。方法回顾性分析医院185例急性脑卒中患者的临床资料,对可能影响患者并发肺部感染的相关因素进行分析,
目的构建蛇毒精氨酸酯酶Agkihpin的原核表达载体,并诱导其表达重组Agkihpin,为将来量产Agkihpin提供方法和依据。方法 RT-PCR法扩增Agkihpin基因,构建重组表达质粒p ET30a(+)
目的调查分析血液透析患者中心静脉留置导管感染发病率、相关因素,以采取有效的防控措施和护理对策降低感染发生。方法采用回顾性调查方法,对2005年1-12月血液透析患者中心静
<正> 外语教学是在教师引导、调节和控制下的语言学习过程。这个过程应该是自觉的、理智的和逻辑严密的,而不是自发的、盲目的和混乱的。这就要求外语教学必须有科学的理论、
经济的全球化首先表现为资本的全球化,发达国家凭借资本优势在世界资本市场恣意横行,攫取高额利润。从墨西哥金融危机、亚洲金融危机到俄罗斯金融危机,无不闪现西方金融巨鳄的身
1995年以来电子商务取得了前所未有的发展,而它也改变了全球经济格局。随着时间的推移,科学技术进一步发展,人们的思想逐渐得到开悟和完善,网络世界必将深入到千家万户。日后,线上