面向互联网非结构化文本属性抽取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hnfengzhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高速发展的互联网产生了海量的文本数据,这些文本数据大部分是非结构化的数据。为了使得计算机和人们更好地理解互联网上的数据,产生了信息抽取和知识库构建等任务,将非结构化的文本信息转化为结构化的信息。属性抽取是知识库构建等任务中重要的组成部分,负责从非结构化的文本数据中抽取出特定实体的属性值,实体、属性值和对应的属性关系构成知识库中的节点和关联边。针对属性抽取问题,本文通过研究对比传统的属性抽取算法,提出了一个基于卷积神经网络的多示例多标签的属性抽取算法,主要工作如下:  (1)深入分析了若干传统属性抽取算法,针对传统的属性抽取算法人工依赖性太强、特征表达能力偏弱以及未能很好地解决多种属性关系等问题,提出了新的属性抽取算法。  (2)使用远程监督的方法以利用外部知识库生成训练和测试数据,解决了人工标注数据集人工依赖性强、数据集偏小及数据集领域单一等问题,同时提出了一种基于卷积神经网络的多示例多标签的模型,抽取语义特征来完成分类,这一方法可抽取出抽象能力更强特征,并且通过多示例多标签挖掘各个属性关系之间的联系,减小分类错误率。  (3)将本文所提算法与基准模型在TAC-KBP2015数据集上进行对比,通过实验分析初步验证了本文算法的有效性。此外还设计了几个参数对比实验,分析不同参数对模型的影响。  (4)将算法集成到中国工程科技知识服务系统工具KS-Studio中,此外,该算法还应用到了中文医学疾病症状抽取中,初步验证了本文模型应用到中文数据上的可行性。
其他文献
学位
随着互联网、电子商务、电子政务的快速发展,IT服务(信息技术服务)已经成为全球经济发展的重要支柱。IT服务也逐渐变成我国现代服务业的基础。随着IT发展进入信息业务阶段,IT服
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,
语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音
随着传统的家庭生活和娱乐方式的改变,在整个网络中出现了新型数据类型如语音数据和视频数据等,这些数据类型的出现对整个网络传输提出了新的要求比如传输时延低,数据包丢失
在现代社会中,随着经济的飞快发展,生活水平的不断提高,用电需求量的不断加大,越来越多的无人值守变电站被建立。由于无人值守变电站分布区域广、数量多,设备以及财产的安全保障需
近年来云计算相关的云存储、云服务等技术的研究逐渐成为了学术界研究的热点。作为云服务的主要形式之一,平台即服务PaaS (Platform as a service)提供完整的开发及运行平台,
随着互联网技术的快速发展,图像和视频等多媒体数据呈现出爆炸式的增长趋势,这也对相应的信息处理技术提出了新的挑战。一方面,受限于计算机的处理能力,人们需要将有限的计算资源
传统的Web防火墙和入侵检测系统是一种被动的、静态的防卫的手段。面对不断出现的新攻击方法,传统的被动防御的手段越来越显得力不从心,它们缺乏一种主动应对方法。常常是系统
Top-k支配查询返回指定数据集中支配其他数据点最多的前k个数据点。该查询结合了Top-k查询和Skyline查询的优点。由于在很多决策支持应用中的重要作用,Top-k支配查询近年受到