面向多视图文本的聚类算法研究及应用

来源 :贵州大学 | 被引量 : 0次 | 上传用户:xb08888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,文本数据的表达逐步从单一的视图维度向立体的多视图维度发展。典型的多视图文本表达包含传统的文本主题、内容视图、文本的行为视图、文本的环境视图等。多视图文本聚类旨在可联合利用多个视图的信息,改善单视图信息在文本聚类上的局限,因而逐渐受到人们的关注。但是,多视图文本表示的高维稀疏性、差异性和不一致性等特性,为多视图聚类带来了额外的困难。针对以上问题,本文分别提出了增强语义嵌入的深度多视图文本聚类模型(MDCE)和基于主题对齐的深度多视图文本聚类模型(GMC),并在最后集成了对应的聚类分析工具。针对多视图文本表示的高维稀疏性和视图语义差异性,MDCE首先设计了文本视图的深度关联语义映射方法,将文本视图映射到低维语义表达空间,并在映射的过程中对视图进行关联语义补足,以得到高质量的文本视图的语义表达。其次,MDCE利用深度聚类方法在挖掘文本聚类结构的同时进一步优化语义映射,形成深度增强语义映射与深度多视图聚类算法的优化学习机制。本文通过在真实数据集上与多个最新的多视图聚类方法相比,对MDCE模型进行了广泛的验证。实验结果表明,MDCE模型的性能明显优于其他模型。针对多视图文本的视图结构的不一致性问题,本文还提出一种基于主题对齐的深度多视图文本聚类模型GMC,GMC模型在深度变分生成模型(VAE)的基础上引入注意力机制实现视图融合对齐,利用多视图聚类结果的一致性原则同时监督视图级和文本级的多层主题学习和聚类分配。本文分别在文本生成和文本聚类任务上对GMC模型进行了验证,实验结果表明该模型有效。最后集成了一款多视图文本聚类分析工具,并在该工具中嵌入深度多视图文本聚类算法,以填补聚类分析工具在多视图文本聚类领域的空缺,为不同用户提供个性化、多元化的服务。
其他文献
随着科学的蓬勃发展、技术的不断革新,以微电子产业、电子信息技术以及科技制造业为首的高科技产业迅猛发展,对其所需要的功能材料性能也提出了更高的要求,且器件的微型化、集成化是大势所趋,性能单一的材料已经不能满足其需求,因此找到匹配多功能器件的新型多功能材料已成为了研究热点。目前,利用多铁性磁电复合材料的磁电耦合效应,可在传感器、换能器、滤波器、震荡器、移相器、存储器等多个领域应用,可见磁电材料有巨大的
刺梨因其含有多种生物活性物质,对机体调节机体代谢具有积极作用,受到广大消费者青睐。目前刺梨产品主要以鲜果或果汁饮料为主,精深加工利用率较低。现以刺梨汁为原料混菌酿造刺梨果醋,既能提高刺梨深精加工技术水平、丰富刺梨产品种类,又能提高刺梨产品经济价值,具有广阔的市场前景。本文主要研究刺梨果醋混菌发酵工艺,发酵过程中理化及营养指标变化情况,评价其体内预防小鼠高血脂及抗氧化功能性,并采用高通量测序技术分析
铝是一种无机污染物,主要通过在免疫系统中积累以产生毒性,从而对人类和动物健康产生不利影响。α-亚麻酸(ALA)作为一种重要的饮食成分具有出色的抗炎活性,可减少因外界刺激诱导而活化的各类细胞炎症因子,从而抵抗炎症反应。然而,目前对铝的免疫毒性机制和ALA的抗铝毒性能力仍知之甚少,需进行深入探究。本研究将分为对照组、损伤组、保护组和ALA对照组共四组,选用AlCl3诱导的小鼠RAW264.7巨噬细胞为
随着高清监控的快速发展,平安城市、智慧城市等大型项目落地,监控图像的质量问题成为了智能视频监控系统的痛点之一。在光线较暗或光线不均匀的环境之中,采集到的图像清晰度、对比度、饱和度较低,甚至部分细节丢失,不但无法满足观赏性和实用性,对于国家安防等工作所需完成的目标检测及跟踪等功能亦无法实现。因此,对低照度图像增强算法以及其技术应用的研究具有重要价值,本文主要研究内容为:(1)由于在低照度环境下的光照
节能是经济发展的必然要求,全球照明占能源消耗的20%。目前提高照明用电效率,开发绿色环保的照明技术可以有效实现节能减排。发光二极管(Light Emitting Diode,LED)是继白炽灯,荧光灯和高压气体放电灯等之后第四代新型固态冷光源。它具有结构简单,重量轻,耗能少等优点。LED驱动电源是LED照明灯具的关键组成部分,基于此开展对LED照明驱动电源的研究非常有必要。本文参考了国内外对LED
互联网的高速发展给人们带来便利的同时也产生了各种安全威胁,传统的网络架构与防御技术存在的确定性、同构性和静态性缺陷,导致了网络空间处于“易攻难守”的安全态势。为解决上述问题,软件定义网络(Software Defined Network,SDN)、移动目标防御(Moving target defense,MTD)技术分别作为新型网络架构和网络安全防御技术应运而生。本文的研究对象为网络层MTD技术,
聚乳酸(PLA)作为生物可降解材料,可替代传统石油基通用塑料,但PLA极易燃烧且韧性较差,极大地限制其应用范围。因此,对PLA进行阻燃增韧改性成为近年来研究的热点。本论文通过熔融共混法制备复合材料,研究反应型阻燃剂10-(2,5-二羟基苯基)-10-氢-9-氧杂-10-磷杂菲-10-氧化物(DOPO-HQ)对PLA阻燃性能和热稳定性能的影响及DOPO-HQ对PLA的增韧作用;探讨柔性可降解树脂聚己
通过对某方钢管与圆管连接组合屋架的PKPM设计资料研究,发现以下问题:一是设计过程中所有构件均采用两端铰接,实际工程中上、弦杆均为一个整体,中间不存在接缝和焊接;二是将钢屋架承受的节点荷载直接施加到钢屋架二维模型的节点上模拟钢屋架的受力情况,实际工程中钢屋架承受的荷载是通过檩条传递的屋面板荷载,檩条与屋架上弦的接触为一个面,屋架上弦节点处承受均布面荷载。以上两点,与工程实际受力情况存在差异,该工程
页岩气储量大、分布广,是一种清洁高效的非常规天然气,被认为是常规油气能源的理想替代者。流固耦合作用下页岩力学特性和裂缝起裂机理是页岩气开采过程中水力压裂涉及的关键科学问题。本文以黔北地区寒武系牛蹄塘组页岩为研究对象,开展了页岩矿物组分测定(XRD)、扫描电镜分析(SEM)、巴西劈裂试验、单轴压缩试验、渗透性试验和数值模拟试验。研究了流固耦合作用下页岩储层的力学特性和破裂损伤过程。主要结论如下:(1
β型钛合金由于具有更低的弹性模量、更优良的生物力学性能、生物相容性以及耐蚀性能,已成为新一代的生物医用金属材料。本文采用真空自耗电弧熔炼技术制备Ti-15Mo合金,利用光学显微镜(OM)、X射线衍射仪(XRD)、电子背散射衍射(EB SD)、透射电镜(TEM)及高分辨透射电镜(HRTEM)等分析手段,对Ti-15Mo合金的时效析出行为以及形变时效机制进行了深入的研究与探讨;结合微观组织演变,对合金