【摘 要】
:
分类树由机器可解释的语义组成,为许多web应用程序提供了有价值的知识。分类树已被广泛应用于各个领域,特别在电子商务领域中起着至关重要的作用,用于推荐、浏览和查询理解。例如,在线零售商(如亚马逊)使用分类树进行产品推荐,而网络搜索引擎(如百度)利用分类树来增强查询理解。由于手工构建分类树需要付出巨大的人力代价,并且在构建过程中存在较多主观的因素,因此分类树的质量参差不齐。同时,随着web内容量的快速
论文部分内容阅读
分类树由机器可解释的语义组成,为许多web应用程序提供了有价值的知识。分类树已被广泛应用于各个领域,特别在电子商务领域中起着至关重要的作用,用于推荐、浏览和查询理解。例如,在线零售商(如亚马逊)使用分类树进行产品推荐,而网络搜索引擎(如百度)利用分类树来增强查询理解。由于手工构建分类树需要付出巨大的人力代价,并且在构建过程中存在较多主观的因素,因此分类树的质量参差不齐。同时,随着web内容量的快速增长,现有的分类树将变得过时,无法捕获新兴知识,因此对自动分类树的方法的建设提出了较高的要求。目前,自动构建的分类树研究主要集中在小规模任务上,当想要召回更多的实体时,由于大部分低词频实体扩展难度较大,在扩展末期容易出现语义漂移现象,扩展出的分类树的整体质量并不理想。但大多数下游任务需要更完整的分类树,因此目前的研究并不能完全满足下游任务的需求。针对上述问题,本文提出了一种基于语言模型的分类树扩展模型LMTaxoEXPAN(Taxonomic Expansion Method based on Language Model)。首先,基于ANNOY和Word2Vec对分类树中的每个实体空间进行初步补全,以增强每个实体空间的语义信息。其次,本文在BERT的提出上,提出了一种提出了一种基于类别的大规模实体扩展方法LCGRXPAN(Large Scale Set Expansion Method Based on Category),将低词频实体分类弱语义低词频实体和强语义低词频实体两种类型,并分别使用细粒度扩展方法和实体统一扩展方法进行针对性扩展,用于解决大规模扩展时低词频实体难召回的方法,并将此方法作为LMTaxoEXPAN的宽度扩展模块,即使用此方法对分类树的每个实体空间进行扩展。最后,将分类树中具有冲突的实体节点进行实体消歧处理,并返回最终的分类树扩展结果。论文在LCGEXPAN和LMTaxoEXPAN两个方法上分别进行了实验分析。LCGEXPAN选用公开数据集Wiki和APR上进行实验,并将Egoset、Set Expan、Ca SE、MCTS、CGEXPAN作为基线模型。LMTaxoEXPAN在公开数据集Wiki、DBLP和Pub Med-CVD上对模型效果进行评估,并将Hi Expan、Taxo Expan、STEAM、TMN作为基线模型。对两个方法分别进行了整体性能实验、消融实验等。实验结果表明,在大规模扩展时,LCGEXPAN的集合扩展性能提升2.9%以上,LMTaxoEXPAN的分类树扩展性能提升1.9%以上。该论文有图17幅,表12个,参考文献82篇。
其他文献
为研究平朔露天煤矿排土场植被退化机理,明确排土场人工林土壤理化性质的变化规律和驱动机制,了解土壤条件与植被退化的关系,本试验以平朔露天煤矿排土场不同退化程度的刺槐纯林、油松纯林、刺槐+榆树混交林和刺槐+油松混交林等四种主要植被为研究对象,对其土壤剖面0-20 cm和20-40 cm土壤样品进行采集,通过测定土壤理化性质的分布特征,对不同退化植被的土壤理化性质关系进行分析评价。结果表明:土壤深层含水
黄河流域被称为“能源流域”,存在开发与生态环境矛盾日趋尖锐、资源型经济依赖程度深、发展惯性大等突出问题。进入新时代,面对新形势和新要求,亟须从流域整体视角加快发展理念、产业结构、布局结构、资源经济、体制机制转型,使非化石能源成长为支柱能源,将开发重心进一步向上中游转移,实现二次能源优化发展,继续承担全国重要能源基地作用。按照分区分类分型分策思路,选取上游成长型可再生能源基地、“几”字弯区域稳定型化
多区域多物理场耦合问题在水资源开发、非常规油气藏开采等领域有着重要的应用,dual-porosity-Stokes耦合模型作为一种典型的多场耦合模型具有很重大的研究价值。该耦合模型由多孔介质区域和管道自由流体区域构成,其中多孔介质区域由两个分别控制微裂缝渗流和基质渗流的Darcy方程描述,两种孔隙之间通过质量交换项进行耦合,管道区域则由控制自由流体的Stokes方程刻画,两个区域之间通过交界面上的
在20世纪60、70年代国际共产主义运动内部发生严重分歧的大背景下,一些学者对马克思主义在历史研究中的科学性产生了怀疑,并存在有用实证主义和相对主义观点重释马克思主义的倾向。面对这种情况,波兰马克思主义者亚当·沙夫(Adam Schaff,1913-2006)挺身而出,他在批判各种错误观点的同时,也以马克思主义立场对历史认识论作出重塑,有效地回答了“真理性历史如何可能”这一根本问题。沙夫的工作不仅
煤炭开采在带来经济效益的同时也造成了不容忽视的生态环境问题,产生了大量废弃地,利用化学方法及微生物修复技术进行矿区废弃地改良是目前的研究热点。本研究以黑麦草为供试植物,选取微生物菌剂长枝木霉菌(TL)和废弃资源古龙酸母液(RE)、剩余活性污泥堆肥(AS)为改良剂在矸石山基质、排土场土壤两种不同生境条件下进行盆栽试验。通过不同用量改良剂单施试验确定最佳用量范围,然后进行配施试验,通过测定黑麦草生长生
多目标均衡约束优化问题(Multiobjective Optimization With Equilibrium Constrained,简称MOPEC)的应用遍及工程设计、经济均衡、交通科学、数据挖掘、军事决策等领域,然而该问题在理论分析与求解算法设计等方面的研究存在诸多问题。出于其重要的实际研究价值,采用何种方式求解与如何优化求解过程,近几年引起研究人员的高度关注。在均衡约束优化问题研究中,约
随着信息技术的飞速发展,推荐系统在各种流媒体网站和电子商务平台中应用广泛。现有的推荐系统大多数根据用户的身份信息和长期的历史行为给出个性化推荐。然而,许多应用程序并没有关于用户身份信息和长期历史数据。基于这种情况,传统的推荐算法将不再适用。因此基于会话式推荐系统(Session-based Recommender System,SRS)应运而生,通过用户在当前会话序列中的点击行为给出有效的推荐结果
培养学生统计思维已成为当前国际统计教育讨论的焦点,而教材作为主要的教学资源是培养统计思维的重要载体。采用定量与定性分析结合的方法,基于统计活动视角比较分析人教A版、北师大版、湘教版三版高中新数学教材呈现的统计思维水平和复杂性发现:三版教材都重视“提出统计调查问题”“分析数据”“解释结果”过程,但在“收集或考虑数据”过程提供的学习机会较少;各过程下不同水平的统计思维均有呈现,但水平分布不均衡;都比较
当前,对“跨学科学习”的关注度越来越高。在实践中,教师应立足学科本位,实施跨界学习,促使跨学科教学能力的提升。其间,需要经历多重环节:进行语文单元内重组和跨单元重组的萌芽阶段,基于“学科+”的组合、整合、融合的发展阶段,跨越虚拟与现实、课堂与生活的高级阶段。