【摘 要】
:
知识图谱是图结构的知识库,用于存储现实世界中的实体关系和实体属性。目前,知识图谱的数量和规模呈现爆炸式增长,实体拥有大量的描述信息,导致用户无法快速准确地理解这些实体。当实体理解任务的对象是具有一定相关性的一组实体时,用户将面临更大的挑战:多个实体构成的特定群体通常拥有大量复杂、交错的描述信息,用户很难有效地理解特定群体与其他实体间的差异性。群体画像方法是解决群体理解问题的一个有效手段。该方法尝试
论文部分内容阅读
知识图谱是图结构的知识库,用于存储现实世界中的实体关系和实体属性。目前,知识图谱的数量和规模呈现爆炸式增长,实体拥有大量的描述信息,导致用户无法快速准确地理解这些实体。当实体理解任务的对象是具有一定相关性的一组实体时,用户将面临更大的挑战:多个实体构成的特定群体通常拥有大量复杂、交错的描述信息,用户很难有效地理解特定群体与其他实体间的差异性。群体画像方法是解决群体理解问题的一个有效手段。该方法尝试用简洁、可理解的实体标签代替群体的大规模的描述信息,以帮助用户直观、快速地捕获一组实体与其它实体间的差异性特征,刻画群体的边界。传统的群体画像方法需相关领域专家充分了解数据后人工设置标签库。但当面对一个全新且庞大的数据时,该方法会存在以下问题:1)人力代价问题。领域专家通过分析得到描述区分性特征的实体标签。这一知识工程通常需要付出高昂的人力代价,从而使得面向大规模知识图谱的人工标签制定变得不可行;2)知识动态性问题。当知识的规模或领域发生了更新后,领域专家很难及时有效地捕获新知识的特征,导致无法快速准确地更新标签库。针对这些问题,本文提出面向知识图谱群体画像的标签自动生成方法。基于自动生成的标签库,本文进一步提出一种基于图注意力网络的群体画像模型来完成实体群体的画像任务。本文提出的方法实现了群体画像过程的自动化。本文的主要工作如下:(1)提出了知识图谱中标签库自动生成方法。通过分析知识图谱中实体复杂的关系以及属性描述,设置三种不同类型的实体标签。借助数学统计推断、连续属性离散化、启发式规则过滤等技术手段实现标签库的自动生成,解决传统群体画像中人工设置标签库的问题。(2)提出了一种基于图注意力网络的群体画像模型。通过面向实体和实体标签的嵌入方法得到每个实体和实体标签的向量表示,引入基于注意力机制的图神经网络实现实体群体画像任务。基于自动生成的标签库,该模型可以筛选出群体中top-k个具有代表性和区分性的实体标签,并度量每个实体标签在群体中的重要程度。(3)构建了知识图谱实体群体画像原型系统。该原型系统实现了数据集查看、标签库自动生成、群体画像等功能。本文在多个真实数据集上对以上方法的可行性和有效性进行了验证。实验结果表明,本文提出的画像方法相较于基线方法在Hit Ratio和平均准确率上均有所提升。
其他文献
由于危险品运输罐车侧翻事故频发,罐车侧翻预警及控制方法受到了广泛关注,成为车辆安全主动防控领域的研究热点。目前国内外针对罐车侧翻预警及控制方法的研究已取得阶段性进展,然而因为车身结构的特殊性和复杂性,罐车侧翻预警及控制方法仍存在以下问题:1)现有预警方法是在罐车已存在侧翻危险时才预警,可能会导致预警不及时;2)现有预警方法使用的侧翻表征参数单一、侧翻阈值固定,可能会导致预警不准确和不可靠;3)现有
核能发电由于其清洁、高效的特性,一直受到各国的重视。但由于商业化核电项目至今尚未在设计上实现本质安全,尤其是三哩岛、切尔诺贝利和福岛核事故等一系列重大事故的发生,对核电建设造成巨大冲击。国内外在现有技术条件下,一方面继续探索实现本质安全的方法;另一方面,结合历次核事故,提出了在现阶段技术下切实可行的目标,即实际消除大量放射性物质释放。无论何种事件序列,核事故中大量放射性物质释放都要经历反应堆堆芯熔
目的通过对人类表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)扩增型乳腺癌患者使用ACH-TH(聚乙二醇化脂质体多柔比星+环磷酰胺序贯紫杉类联合曲妥珠单抗靶向治疗)和TCbH(紫杉类+卡铂联合曲妥珠单抗靶向治疗)这两种新辅助化疗方案达到的病理完全缓解(pathologic complete remission,pCR)率的对比,判断新
由于海洋中具有巨大但尚未开发的能源,海洋能发电技术成为世界范围内最热门的研究领域之一。海洋能发电技术已经探索了几个世纪,如今仍然面临着挑战。在过去的几十年中,各种类型的波浪能转换(WEC)装置得到了长足发展。在这些WEC装置中,阿基米德波浪摆(AWS)是第一种直驱式WEC装置,采用直线永磁发电机(LPMG)直接与浮子耦合,结构简单、效率高。相较于目前的波浪能转换(WEC)装置在能源输出(PTO)系
静压导轨作为一类典型的直线运动支承部件,被广泛的应用在数控磨床中。其中静压圆柱导轨在具有刚度大、承载力高、导向性好等优点同时,能很好的克服传统导轨加工难度大的缺点,具有良好的应用前景。刚度作为导轨重要的性能指标之一,对机床整机的性能有深远的影响。到目前为止,此前的多数研究均以传统平面型导轨为对象,以静压圆柱导轨为对象的研究尚不多见,更未见到有关静压圆柱导轨五自由度刚度模型的报道。因此,建立静压圆柱
大规模的城镇化扩张带来城市中心区公共环境的混乱和失衡,进而引起中心区的吸引力降低,活力消退。开放式公园的规划建设对于提升城市公共空间环境品质有着积极的推动作用,而边界空间是公园开放性的重要载体。城市中心区资源和人口密集,空间环境复杂,如何协调开放式公园边界空间与周边环境的关系,使其更好的满足社会服务需求,对促进开放式公园发挥其城市功能具有重要意义,也是当今城市中心区发展亟待解决的问题。在此背景下,
快速路是城市道路交通系统的重要组成部分,具流量大、车速快、出入口控制等特点,承载城市内高速度、长距离需求的机动车出行。近年来随着城市片区间交通需求的迅猛增长,城市快速路出现严重的交通拥堵问题,导致大量出行延误和交通安全事故。合流区作为最常见快速路瓶颈类型,是主线车流与匝道汇入车流交汇区域,车辆间冲突影响严重,致使拥堵、事故等交通问题频出,引发显著的“通行能力下降”现象,即瓶颈实际车辆通过率远小于正
RoF(Radio over Fiber)技术,结合了无线通信技术和光纤通信技术,非常适合应用于朝着高带宽、高速率和高性能等特点发展的现代通信。相对比于已经发展比较成熟的ARoF(Analog Radio over Fiber)系统和 DRoF(Digital Radio over Fiber)系统,SDoF(Sigma Delta over Fiber)系统能够在降低系统复杂度和成本的前提下拥有
TOD及站城一体化促进了地铁站与周边地区联系。地铁的规划、建设、运营刺激着商业沿线发展,促使商业在地铁站周边聚集。相较于地铁站域内其他公共建筑,商业综合体作为一种强调体验、消费的城市综合体,它与地铁站点的联系更为紧密。作为地铁站点和商业综合体两者的联系纽带,二者的连接部分不仅满足交通需求,同时也提供商业、休闲、娱乐等功能。本文先研究地铁站和商业综合体连接部分的基本概况,总结归纳出地铁站点和商业综合
为了较好地沟通公路两侧水系,通常需要在公路上设置较多的涵洞。由于“一涵一图”的编制要求,涵洞设计工作量较大,以往的手工绘图、逐个修改的方式较难满足设计精确、高效的要求,亟需开发一套完善的涵洞设计系统进行涵洞设计。目前,国内涵洞设计软件系统已较为成熟,但是由于考虑了全国适用性,现有涵洞设计系统泛而不精;设计文件的项目化功能也不强,手工干预程度高;界面与设计流程相对复杂。基于此,考虑到适当的项目化、标