基于大规模语料库的现代汉语动宾搭配知识库构建

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户:ice_city_82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在语言生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位。故本文聚焦于构建现代汉语动宾搭配知识库,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。本文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140 个,从BCC 语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300 万对,形成动宾搭配知识库。
其他文献
我国综合管廊内燃气安全问题亟待研究和解决。为了研究管廊内燃气爆炸荷载特性,在0.11 m×0.11 m×6 m的小尺寸管道内进行甲烷-空气混合气体封闭爆炸实验,研究了在不
数值计算是武器效应与毁伤评估研究的重要途径,其作用集中体现在指导试验设计、优化方案,拓展试验结果及作为理论与试验研究的补充手段三方面。由国外武器效应数值计算软件的
在长距离依赖场景,篇章依存分析的效果欠佳,传统分析方法通常设计大量特征模板来缓解这一瓶颈问题。该文提出一种层次化篇章依存分析方法,减少了篇章分析器所需一次性处理的
词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的
《现代自然语言生成》系统地总结了以神经网络为代表的现代自然语言生成技术,并由浅入深地介绍了自然语言生成的基本思想、模型、算法和框架。为了让读者更全面的理解自然语
知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了
双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双