论文部分内容阅读
高速发展的互联网产生了海量的文本数据,这些文本数据大部分是非结构化的数据。为了使得计算机和人们更好地理解互联网上的数据,产生了信息抽取和知识库构建等任务,将非结构化的文本信息转化为结构化的信息。属性抽取是知识库构建等任务中重要的组成部分,负责从非结构化的文本数据中抽取出特定实体的属性值,实体、属性值和对应的属性关系构成知识库中的节点和关联边。针对属性抽取问题,本文通过研究对比传统的属性抽取算法,提出了一个基于卷积神经网络的多示例多标签的属性抽取算法,主要工作如下: (1)深入分析了若干传统属性抽取算法,针对传统的属性抽取算法人工依赖性太强、特征表达能力偏弱以及未能很好地解决多种属性关系等问题,提出了新的属性抽取算法。 (2)使用远程监督的方法以利用外部知识库生成训练和测试数据,解决了人工标注数据集人工依赖性强、数据集偏小及数据集领域单一等问题,同时提出了一种基于卷积神经网络的多示例多标签的模型,抽取语义特征来完成分类,这一方法可抽取出抽象能力更强特征,并且通过多示例多标签挖掘各个属性关系之间的联系,减小分类错误率。 (3)将本文所提算法与基准模型在TAC-KBP2015数据集上进行对比,通过实验分析初步验证了本文算法的有效性。此外还设计了几个参数对比实验,分析不同参数对模型的影响。 (4)将算法集成到中国工程科技知识服务系统工具KS-Studio中,此外,该算法还应用到了中文医学疾病症状抽取中,初步验证了本文模型应用到中文数据上的可行性。