细粒度的实体和关系抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:seacloudnemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大词林是一个自动构建的大规模开放域中文实体知识库,能够在搜索引擎中基于多信息源自动获取实体的类别并对类别进行上下位关系挖掘以构建层次化类别体系。目前,大词林的实体规模已经达到了一千多万,上位词规模也已经达到十八多万。在扩充数据规模的同时,大词林需要在细粒度的场景中考虑更好的方案实现同义关系挖掘和上下位关系挖掘。基于这样的背景,本文研究了三个小方向的内容以完成该目标。1.实体的同义关系挖掘。当实体规模增大时,内部冗余实体的数量也会相应增大。本文提出基于同义词词林的预训练词向量微调技术,相比于直接利用预训练词向量判断实体的同义关系,该方法充分利用了同义词词林这一外部同义词知识库,拉近语义空间中同义词的距离,同时拉远语义空间中非同义词的距离,该方法能够更加准确地判断出两个实体名称是否是同一个实体。2.上位词的概念路径融合。大词林中实体和上位词主要通过自动挖掘的方式获得,因此不可避免地出现一定的错误。而现有许多其他知识图谱中的上位词体系通过人工的方式构建。本文利用大词林的概念体系和其他知识图谱的概念体系,构建出概念路径匹配数据集,利用多种匹配模型挖掘出不同图谱中概念的对齐关系,并利用其对齐关系对大词林中上下位关系进行修正。3.细粒度的实体类型识别。大词林中目前已存在良好的上下位关系抽取模块,但随着上位词规模的增大,我们期望利用更加丰富的信息源判断去判断上下位关系。本文基于现有的细粒度实体类型识别方案,利用不同模型和增强策略测试在两种数据集下的指标,并将中文数据集的知识迁移到大词林中,以作为大词林上下位关系挖掘模块更加丰富的佐证信息。
其他文献
企业继续教育是为适应现代社会科技、经济发展的需要,落实人才强国、科教兴国战略而出现的一种重要教育活动。同时企业作为知识经济时代社会科技创新和转变经济发展方式的主
21世纪以来,教育正以不可阻挡之势,肩负着培养人才和发展人类社会的重大使命,与过去相比,越来越多的人清晰的认识到科学教育在个人发展中有着不可代替的作用。从社会蓬勃发展
混合式教学模式,是运用信息技术改造传统教学,促进泛在、移动、个性化学习方式,是高等职业教育创新发展行动计划的一个重要内容。文章以《变速运动小车功率放大电路的安装与
随着网络新媒体技术日新月异的发展,企业传播信息既海量便捷又鱼目混杂。在虚拟而又复杂的网络社交媒体平台上发布的信息,难免含有一些虚假消息和危及企业生存和发展的谣言,
技能大赛是我国职业教育的一项制度创新,是高职院校服装专业教育教学改革与课程建设的重要推手,发挥着导向和促进作用..在服装行业优化升级的发展趋势下。加强对服装职业技能大赛
农村饮用水安全是广大农民最关心、最直接、最现实的问题。在社会主义新农村建设中,农村饮用水安全问题事关农村社会稳定、经济发展和广大农村居民的身体健康。因此做好饮用水
作者简介:郎家丽(1972-),女,汉族,江苏省南京特殊教育职业技术学院阳光学院副教授,硕士,研究方向:艺术设计。
随着我国社会经济的不断发展和人们生活水平的提高,对公路运输的需求越来越大,要满足社会各界对公路的各种需求,就要在公路工程的设计阶段进行慎重而科学的规划。本文从公路
随着我国城市的快速发展,城市轨道交通已成为人们出行的重要方式。而城市轨道交通系统规模的不断扩大,也使地铁运行的效率和乘客的出行体验受到了考验。在城市轨道交通系统中,列车时刻表是列车运行的基础,所以列车时刻表的优化和列车的运行调整是提高城市轨道交通列车服务水平的关键。然而,由于城市轨道交通线路和列车的规模庞大,以及客流的随机性和动态变化的特点,尤其是在乘客乘车高峰期,能较好满足乘客需求的列车时刻表的
地壳发生的一切变形都是地应力作用的结果。在构造应力作用下,组成地壳的岩石、矿物必然发生变形,这些变形也必然在岩石、矿物内遗留下各种构造形迹——显微构造;同时,矿物的