【摘 要】
:
大规模文本数据在丰富人们信息生活的同时也对如何更好地管理它们,挖掘其价值提出了挑战。聚类分析作为一种无监督学习方法,提供了一种不依赖标注信息,仅依靠数据本身的特征来识别数据分布模式的方案。文本聚类是自然语言处理的一个重要分支,已经有了一些成功的应用。例如,它可以把问答平台、社交媒体上用户发布的大量文本自动归入不同的主题,从而减轻平台的负担;可以将文献数据库中作者名存在歧义的论文自动划分为不同作者的
论文部分内容阅读
大规模文本数据在丰富人们信息生活的同时也对如何更好地管理它们,挖掘其价值提出了挑战。聚类分析作为一种无监督学习方法,提供了一种不依赖标注信息,仅依靠数据本身的特征来识别数据分布模式的方案。文本聚类是自然语言处理的一个重要分支,已经有了一些成功的应用。例如,它可以把问答平台、社交媒体上用户发布的大量文本自动归入不同的主题,从而减轻平台的负担;可以将文献数据库中作者名存在歧义的论文自动划分为不同作者的发表集合,等等。本文利用不同的数据增广方式结合对比学习缓解文本聚类中数据稀疏的问题,针对两个场景可利用的额外信息设计了文本聚类框架,具体说来:针对用户生成内容平台(UGC)的文本,文本的作者(ID)通常是公开的。本文从统计特征出发,验证了每个作者只关注有限的话题类别,并发布相关话题下的文本的假设,说明了对用户文本聚类时考虑作者的合理性。并基于这样的观察,提出了用户文本聚类框架CAT。CAT从文本表征和聚类目标函数两个方面考虑作者的影响力。其中目标函数以对比学习的形式,结合深度表示学习技术,增广的数据来源于聚类级别的注意力表示融合以及作者的表征,在连续空间进行,在用户文本聚类场景下解决了前人工作中对文本进行词替换以增广数据导致的文本中心词丢失的情况。在有作者(ID)的数据上CAT的表现大大超过了其他考虑和不考虑作者的文本聚类模型,说明了考虑作者角色在用户生成文本聚类上的益处和所提出方法的有效性。针对文献管理平台的无监督论文作者同名消歧问题,本文首次提出端到端的基于异质网络的对比聚类框架HINCC。以论文之间共同作者,共同机构、引用关系等建立论文信息异质网络,通过节点自遮掩和基于边的遮掩两种视图(View)作为数据增广方式,应用对比学习结合异质图神经网络编码器,使得节点周围不同类型邻居的信息充分交互融合构成节点表征,并且邻居信息相似的节点表征更接近;同时利用聚类生成的伪标签参与对比学习中负样本的动态筛选,减少了同类别负样本带来的性能衰减问题。在三个不同的论文同名消歧数据集上证明了所提出方法的有效性。综上所述,本文从不同文本聚类场景可利用的额外聚类线索出发,构建针对性的数据增广方式,探索了应用对比学习引导这些生成的正负例表征对聚类的增益的能力,并在多个公开数据集上验证了所提出方法的有效性。
其他文献
相较于单臂机器人,双臂机器人拥有冗余的自由度,能够执行更灵巧的操作和完成更复杂的协同任务。双臂机器人在进行灵巧操作时,末端执行器之间的距离往往非常接近,在对双臂协作机器人进行轨迹规划时,要求提供十分精确的碰撞检测算法,以保证机械臂的安全。针对上述问题,本文对面向双臂协作机器人的连续碰撞检测算法进行研究,主要研究内容为:·提出了一种面向双臂协作机器人灵巧操作的连续碰撞检测算法,该算法基于泰勒模型在机
近年来,深度神经网络在许多分类任务中已经达到了很高的准确率,这些任务包括语音识别,目标检测以及图片分类等。尽管深度神经网络对随机的噪声是具有鲁棒性,但是当对神经网络输入添加一些不能被人眼察觉的特殊扰动会使得深度神经网络模型输出错误的预测值。通常把这些添加了特殊扰动的样本称作对抗样本。为了使得深度神经网络的鲁棒性提升,对于深度神经网络防御对抗样本的方法进行了研究。在对抗防御的方法中包括三种:梯度遮蔽
随着信息技术的发展,图作为一种便捷且有效的建模方式,被广泛用于表示复杂的结构化数据。异常节点检测是图分析领域中的重要课题,在诸如社交网络的恶意账户检测,金融网络的欺诈检测等现实生活中有着广泛的应用。图异常节点检测场景的数据往往具有复杂的拓扑结构关系,传统领域的异常检测方法难以处理复杂的关系,此外,信息多元,标签不平衡等特点也造成现有的异常节点检测算法在性能上不尽如意,影响异常检测任务的表现。为了高
现代人们大部分时间都在室内环境中度过,例如家庭、办公室、购物中心、大学、图书馆和机场。然而,很多现有的基于位置的服务都只针对室外空间而设计,这主要是因为全球定位系统等定位技术无法准确识别室内场馆的位置。然而近年来室内定位技术的突破开始逐渐克服了这一难题,为研究机构、政府机构、技术巨头和有进取心的初创企业带来了巨大的未来机会——可以充分挖掘室内基于位置的服务的潜力。因此,室内数据管理在过去几年中获得
密度聚类被广泛用于模式识别、信息检索、图像分析、复杂网络分析等众多领域来识别真实世界数据集的隐藏结构。目前的密度峰算法往往只能处理结构化的完整数据,很多情况下表现不佳。其一,现实世界中的数据往往存在缺失或错误值,对于这样的不完整数据集,目前的处理方法是进行数据插补,然后采用传统聚类方法进行处理,这样导致精度下降,并且插补后的点的‘聚集现象’可能导致密度峰聚类失效。其二,对于更常见的半结构化数据,往
点云可用来描绘物体在三维空间中的形状,被广泛应用于自动驾驶、质量检测、结构可视化以及动画渲染等领域。随着深度学习技术的发展,人们逐渐将视角从二维视觉转向三维视觉,点云由于能够最大限度地保留物体的几何信息,因此成为研究该问题的首选。近些年来,在大规模三维点云上展开的深度学习工作已经取得了巨大的进展。然而,点云中专门面向小目标的语义分割仍然是该领域的挑战之一,许多问题亟待解决:(1)小目标所承载的语义
联邦学习作为当下人工智能技术的热点,可以解决“数据孤岛”问题。然而,现有的联邦学习方案面临一些问题,例如,如何保证上传的模型更新的隐私,如何避免不可靠的模型更新,以及如何鼓励参与者贡献他们的资源。为了解决这些问题,本文制定了相应的设计目标,提出了一种隐私保护的评估机制来选择可靠的模型更新。考虑到参与者不可能无条件的贡献自己的资源参加联邦学习,本文制定了相应的设计目标,设计了一种基于强化学习的公平激
监督过失不是过失的新类型,而只是在预见可能性程度上有所降低的特殊过失形态。监督过失可归责的正当性根据,在于劳动分工基础上维护社会有机团结的要求。监督过失理论研究对我国司法实践的意义,在于对监督者加重处罚并限制其处罚范围。监督过失处罚并不违反责任主义,也并非是风险社会下预防刑法的典例,对监督过失的研究仍未脱离传统刑法理论的范畴。我国司法实践呈现出三元监督主体归责倾向,实务中存在注重责任的划分而非归责
知识追踪(Knowledge Tracing)是用来评估学生对知识点掌握程度,从而预测学生对特定习题能否回答正确的人工智能与教育学领域相融合的一项技术。近年来,随着在线教育平台的不断增多,对于个性化学习的需求也越来越迫切。知识追踪可以追踪学习者的知识状态,并且学习路径推荐可以根据知识追踪的预测结果来对于学习者的学习过程进行个性化规划与推荐,以满足适应每个学习者的学习需求。尽管对于知识追踪和学习路径
深度学习的成功源于大量的标记数据,与之不同的是,人类仅仅通过少量的样本就具有很好的认知识别能力。两者之间的差异引发了人们对小样本学习极大的关注和研究。与传统的深度学习场景相比,小样本学习是根据新任务中少量的标签数据(支撑集)和以往获得的知识预测新任务中未标注的数据(查询集)。近年来,小样本学习方法借助元学习和情景训练策略,取得了长足的进步。其中情景训练策略是随机的从数据集中构造一个个元学习任务进行