基于多视图的文本聚类方法的研究与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:linco87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息目前作为人们最大信息来源之一,在现实社会中担负着传播知识的作用。但是由于文本信息具有易复制性,导致很多人为了自己的利益,将他人撰写的文本进行修改后放到网上以获得利益,这种情况造成了不少粗制滥造的文本出现,因此许多文本查重网站和系统应运而生。该类系统在实际使用中,经常会因为收录数据量大、文本数据不分类或分类情况较差等问题,导致实际查重结果中出现与查重系统收录内容毫不相关却又被查重系统认为抄袭的文本。针对以上问题中出现的大数据文本下分类不佳的情况,本文通过多视图聚类算法,结合改进的TF-IDF算法和LDA算法,提出了一种改进的视图约束无监督多视图聚类方法(Unsupervised Co-training,即UCo-training)。该方法在基于文本词汇、词义等多特征视图的基础上,通过改进的TF-IDF-WF算法、LDA算法,实现了对文本词汇特征、词义特征矩阵的提取,并采用无监督聚类的形式让两个视图互相学习、获得更高精度的聚类结果。相比其他已有的方法,该方法通过谱聚类算法,对特征向量进行降维,保留最有效的特征值用于生成保留了视图信息最丰富的特征向量,并通过聚类的方式获得最优的聚类结果。为了评估本文所提出的文本聚类方法,选取了传统的LDA算法、改进的TF-IDF-WF算法和多视图聚类算法Mv NMF、SM2SC作为实验对照组。在中文维基、复旦大学语料库等组成的综合数据库下进行实验和对比。由实验结果数据分析可得,本文方法在聚类结果上NMI值最高可达95.3%,相比于传统单视图聚类方式结果最优的LDA方法,本文的NMI值提高了约10%,相比于多视图聚类算法中结果最优的SM2SC方法提升了6%,证明了本文方法能够较好的完成聚类任务。此外,基于本文提出的理论,设计并实现了一个多视图聚类文本查重系统。根据本文算法的核心思想,系统被分为三个主要阶段,分别为特征向量组的提取、文本聚类和文本相似度计算。经由实验证明,该系统能较为有效、精准地完成文本聚类和相似度计算的任务。最后,针对本文算法中存在的不足之处,展望了对算法改进聚类精度和效率的可行方案,探讨了从特征向量提取算法的改进,到阈值的最优值的获取、在大数据平台上的使用和神经网络算法作为底层算法的可能性,进一步丰富了本文算法的在未来的研究方向,为本文作者和其他研究人员提供了部分研究思路。
其他文献
人体姿态估计是指根据视觉信息来计算人体各个关节点的姿态参数,在医疗康复、体育训练、智能监视、无人驾驶飞机和自动驾驶汽车等领域有着广泛的实际应用。现有端对端的深度
光电探测器是一种可以将光信号转换为电信号的装置,在军事和国民经济的各个领域中发挥着举足轻重的作用。随着社会的发展,人们对光电子器件微型化、可穿戴性、宽探测波段、高
近些年,元认知这一心理学理论一直被关注,如何将元认知理论应用到教学中已成为目前教育领域的主要研究问题之一。本文运用文献资料法、调查法、实验法等研究方法进行元认知理
高速率和低功耗是第五代移动通信技术(5G)中最为核心的两大需求。同时考虑到未来移动端设备高度追求轻薄化的发展需求,因此就天线技术领域而言,设计一款宽带、高效率以及低剖面
随着自旋电子学的发展,巨磁电阻效应、隧道磁电阻效应的发现使得人们更加关注磁性材料和磁电子学器件研究。目前,自旋电子学已经在新材料的制备、表征以及器件设计等方面进行了大量的研究,并取得了巨大的进步。Fe-N化合物材料是一类典型的磁性材料,具有较高的饱和磁化强度,同时其矫顽力也非常低,并且具有良好的抗腐蚀能力,这使其在磁性存储及磁电子器件领域有着广阔的应用前景。本文应用磁控溅射技术在Al_2O_3衬底
随着人们对增压发动机的性能要求不断提高,具有高转速运行特性的压气机被广泛应用于车用涡轮增压器,从而提高增压器的整体效率。然而伴随压气机转速的上升,增压器的噪声问题越来越突出,高噪声对驾驶员的健康产生较大的负面影响,因此如何降低增压器噪声已然成为亟待解决的重要研究课题。压气机作为压缩空气的核心做功部件,但做功过程中不可避免产生高噪声,其中气动噪声是主要成分之一。因此,从控制噪声角度出发研究压气机气动
利用深度学习对图像中的行人进行再识别的研究工作已经取得了一定发展。将行人再识别技术应用在真实场景时,常常会遇到摄像视角变化,背景复杂造成遮挡以及光照条件不理想等情
信息技术的发展和各种智能移动终端的普及,使得图片数据在网络上的生成和传播变得更加快捷,在很多基于图片分享的社交平台上,如Flickr,Pinterest,Instagram等,每天都会有成百
本论文主要运用煤的岩相技术对煤种进行显微结构研究,通过煤的岩相分析技术自动模拟配煤。在煤的岩相分析中,煤的镜质组反射率是判断炼焦煤煤化程度的首要指标,其中主要运用镜质组平均最大反射率、镜质组反射率分布图进行分析。镜质组反射率分布图由一定数量的单个测定点的反射率数据组合而成,单一煤种的反射率分布图通常显示为单峰且正态分布,混合煤的反射率分布图通常呈现出多个峰值,根据煤的镜质组反射率分布图的上述特征,
随着互联网技术与医疗水平的不断进步,数字化虚拟人体器官的研究逐渐成为科研领域的一个重要分支,该分支对医学、解剖学等领域的发展有着重要的意义。该分支的成功研究提高了临床医学在疾病诊断过程中的准确性以及疾病治疗的及时性,推动了医学领域的发展,为临床医学治疗及教学提供了真实的参考依据,用于模拟医学实验、医学手术、模拟教学等,加速了医疗手术、介入诊断以及治疗的发展步伐。由美国国家医学图书馆(NLM)创建的