【摘 要】
:
随着科技文献数量及检索需求的日益增加,文献作者重名问题也越发影响文献检索质量,开展人名消歧方法研究是文献知识库建设过程中亟待解决的关键问题。针对目前人名消歧准确率需进一步提升的问题,本文充分利用数据特征,提出一种基于语义特征和图关系特征相融合的二阶段聚类消歧改进方法。该方法加入IDF加权,三重态损失学习,自定义随机网络游走概率,特征融合等改进措施充分挖掘数据特征信息,在评测数据集上取得了较好的消歧
论文部分内容阅读
随着科技文献数量及检索需求的日益增加,文献作者重名问题也越发影响文献检索质量,开展人名消歧方法研究是文献知识库建设过程中亟待解决的关键问题。针对目前人名消歧准确率需进一步提升的问题,本文充分利用数据特征,提出一种基于语义特征和图关系特征相融合的二阶段聚类消歧改进方法。该方法加入IDF加权,三重态损失学习,自定义随机网络游走概率,特征融合等改进措施充分挖掘数据特征信息,在评测数据集上取得了较好的消歧效果。研究工作如下:首先,针对待消歧标准数据集制作问题进行了研究,给出了详细的数据集抽取制作流程,并对本文后续消歧方法改进所要用到的Aminer数据集进行了统计分析。通过对其属性特征的统计分析,发现各属性特征包含较多的低频分量,这些特征无法按照规则有效区分,为后续消歧方法改进提供了思路。其次,提出了基于文本语义特征嵌入的人名消岐改进方法。利用IDF加权,三重态损失模型调整嵌入向量,并且计算文档语义距离矩阵。基于二阶段聚类策略,一阶段利用DBSCAN算法预聚类,第二阶段,对离群点使用最大相似度匹配等算法实现消歧。评测结果表明改进方法效果较好,宏平均F1由单一语义嵌入的0.38提升到0.47。然后在文本语义特征嵌入基础上,进一步提出基于语义特征和图关系特征相融合的人名消岐改进方法。引入图网络模型,利用节点跳转概率函数得到随机游走路径集,嵌入到向量空间,从而计算文档关系距离矩阵;结合文档语义向量和特征融合的变步长搜索算法得到了最终的特征距离矩阵;利用二阶段聚类算法和特征距离矩阵实现最终人名消歧。实验结果表明,加入图网络嵌入和特征融合之后,评测准确率更优,F1得分由只考虑语义特征的0.47提升到0.71。最后给出人名消歧的工程化应用解决方案和应用案例。提出算法在大数据下实现的优化措施,利用Elsevier论文库实现了改进算法的工程化应用,从而得到消歧之后的专家库。然后利用该专家库讨论web端搜索结果和图谱分析应用。
其他文献
随着人们对汽车舒适度和内部空间的要求越来越高,无论是轿车还是当下比较流行的SUV车型,天窗几乎成了新车型的标配,而天窗漏雨是客户关注度比较高的问题,本文主要阐述了天窗
近些年来,股权质押这一融资模式由于限制性条件少、高效灵活等的独特优势而受到青睐。但是,自2018年A股市场接连爆仓后,上市公司内控及预警制度不完善、外部监督机制不健全等都成为了股权质押“爆雷”的导火线,从而对上市公司造成了负面影响。本文选取在A股市场中的M公司作为案例研究对象,其股权质押比例高达96.38%,属于高比例质押企业。首先,为了确定分析该案例的方向,先对股权质押的相关文献进行了梳理,构建
近年来,中概股回归一直是一个热议话题,从2015年开始掀起了中概股的回归热潮,且回归企业在短期内均出现了市值的数倍增长,增加了投资者的套利空间。于是在2016年出台了相关政策,提高了门槛,降低了回归的热潮,使得当时拟回归企业所处的环境和政策均与2015年有所不同,我国市场也对此提出了新要求,再结合360、药明康德的回归方式和经验,本文选择了整体上市的中概股企业——迈瑞医疗进行分析,通过对整体上市动
近年来国内商业银行数量不断增加;与此同时,很多互联网公司开启在线金融业务,对传统银行业特别是其零售业务造成了较大的冲击,带来了更为激烈的竞争。商业银行需要在零售业务方面进一步提升服务质量,来保持自身的竞争力。只有可衡量的,才是可管理的,服务质量作为一个抽象概念,对其进行可靠的度量是有效管理的起点,本研究以TJ银行的服务质量作为研究对象,基于国际上金融服务业服务质量评估常用的RATER指数,开发出适
伴随互联网时代的到来,无线技术与移动终端已经开始进入人们的视野,线上销售模式也开始进入人们的生活,并逐渐被各个行业所认可。与线下营销模式相比,线上营销能够为消费者提供更为精准的服务,而且线上营销的服务范围广泛,能够节省一定的人力成本,线上营销时代的到来对传统的线下营销模式产生了一定的冲击与影响。线上营销模式正在逐渐社会公众所广泛认知。PA公司是保险行业的代表,经过多年的经营已经抢先了一定的市场份额
黑磷是一种非常重要的层状半导体,也是一种相对新型的二维半导体,因此对其性能的研究是十分重要的。它在光电子器件中的应用十分广泛,因此对其光学性能的研究是必不可少的,尤其是对于新型的堆垛结构的黑磷光学性质的研究更加重要。本文基于密度泛函理论从第一性原理角度探究了不同堆垛类型的黑磷对于其电子结构性质、线性光学性质以及红外拉曼光谱等的影响。在结构优化阶段,我们发现范德华修正对于结果的准确性十分重要,在对黑
自党的十八大以来,以习近平同志为核心的党中央高度重视中国传统文化的传承,家风建设作为优秀传统文化的一部分受到了高度重视。晋商的辉煌时代已经结束,但晋商家族给后人留下了丰富的文化遗产,可以从中挖掘出深厚的文化底蕴和社会风土,其背后的历史值得研究和借鉴。王家代代传承,给后人留下了宏大的建筑景观,宅院内的诸多门联匾额也刻有教诲子孙恪守规矩的箴言,共同构成了王氏家训的丰富内涵。论文的研究过程,首先是对王氏
随着北京城市总体规划(2016-2035)的提出,以及乡村振兴战略的不断发展,休闲农业园作为社会发展下的多产业融合载体,成为了有效推动生态、经济多元发展的重要途径之一。同时,在景观观赏游览的角度,休闲农业园的的农业景观,也成为了城市居民闲暇度假的好去处。此外,休闲农业园中逐渐生态化的农业景观,以及更加丰富化的自然景观,也在一定程度上满足了人们对亲近自然的共性需求。依据北京新城市规划的相关内容来看,
图像风格迁移算法是计算机视觉的一个研究热点。他是将一幅风格图像的风格应用于另一幅内容图像的过程,是一项艺术创作和图像编辑技术。近年来,深度学习的飞速发展为计算机视觉领域注入了新的动力,大量基于深度学习的图像风格迁移算法被提出。本文设计了两种基于神经网络的图像风格迁移算法。首先从提升风格化图像质量的角度出发,提出一种显著区域保留的图像风格迁移算法;然后从提高风格迁移效率的角度出发,提出一种引入注意力
本论文的主要目标是通过对农业银行A支行零售业务营销策略分析,系统地研究A支行的营销现状,识别存在的问题,提出优化方案来解决A支行在零售业务存在的问题,提高零售业务营销板块的精准性及有效性,降低营销成本,最终实现零售业务的利润增加。同时为那些旨在通过优化零售营销策略来持续提高银行获利能力的营业网点提供一些指导和支持。零售客户具有客户数量多、分布广泛、需求变化频繁等特点。针对零售客户的多样化需求,由互