基于句子的网页鉴别与实体关系抽取问题研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户：yunkan

【摘要】

：

网页是传递信息的重要载体，以网页作为研究对象是现今信息检索与信息抽取研究的必然趋势。鉴于句子既是传递信息的基本单位，又是表达完整意思的语言单位，本文以句子为出发点对网

【作者】

：

王柠

【机构】

：

燕山大学

【出处】

：

燕山大学

【发表日期】

：

2015年期

【关键词】

：

信息处理网页鉴别实体关系抽取句子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页是传递信息的重要载体，以网页作为研究对象是现今信息检索与信息抽取研究的必然趋势。鉴于句子既是传递信息的基本单位，又是表达完整意思的语言单位，本文以句子为出发点对网页鉴别与实体关系抽取问题进行研究。具体内容如下。　　首先，定性分析基于句子网页鉴别的难易程度。网页鉴别是以网页中是否含有人们给定的句子为依据来鉴别网页内容。句子的各种变化形式可以表达相同含义的特点，给网页鉴别带来了困难。为了解决该问题，先根据句子的不同变化方式，定义句子与网页之间的五种关系：属于关系、同义词替换关系、简单语序变换关系、复杂语序变换关系和推导变换关系。再讨论每一种关系的识别问题，证明：识别句子与网页的属于关系是可判定问题并且是P问题；识别同义词替换关系是不可判定问题；识别简单语序变换关系是不可判定问题；识别复杂语序变换关系是不可识别问题；识别推导变换关系是不可识别问题。上述结论勾画出了网页鉴别研究难易程度的谱系。　　其次，给出网页鉴别算法。针对网页鉴别中，汉语句子与网页之间每一种关系的识别，分别给出不同的识别算法。对于属于关系，通过Karp-Rabin Hash函数把句子表示成指纹，给出基于指纹的识别算法。对于同义词替换关系，利用现有的词义消歧技术，给出基于无指导词义分析的识别算法。对于简单语序变换关系，给出基于无指导句法分析和词语共现的两种识别算法，并比较了它们的识别性能。对于复杂语序变换关系，针对“被”、“把”字句，以及增加修饰成分而产生的新句子的识别，给出基于无指导句法分析的特殊形式识别算法；对于推导变换关系，针对由词的上下位关系而产生的推导变换形式的识别，给出基于词义层次树的识别算法。同时，对每一种算法的识别性能进行了实验分析与验证。　　然后，研究基于句子的实体关系抽取问题。该问题是在网页中寻找一个句子，且句子中存在满足指定关系的两个实体，并将这两个实体抽取出来。实体表现形式的多样性、隐式实体关系的存在，以及句子的各种变化可以表达相同含义的特点，给实体关系的抽取带来了困难。为了研究该问题，先定性分析问题的难易程度，证明其为一个不可判定问题，再提出基于一致性明确表述的抽取算法。该算法为了提高关系抽取的准确率，引入两个假设条件，并以此为基础，通过词语匹配的方式判断网页句子中是否存在满足指定关系的两个实体。同时，通过理论分析和实验验证抽取算法是有效的。　　最后，研究实体关系的闭包求解问题。该问题是在基于句子实体关系抽取结果的基础上，研究如何利用已经抽取出的实体关系，推导出隐含在关系中的其它实体序偶。为了研究该问题，先定性分析问题的难易程度，证明它是一个不可识别问题；再针对导致该问题是不可识别的原因，提出基于推导规则的求解算法。该算法通过人为指定推导规则，将实体关系闭包中的序偶限定为仅满足人们感兴趣的有限个实体关系，从而求解出实体关系的闭包。理论分析和实验显示，求解算法是有效的。

其他文献

彩色图像预处理算法研究

本文利用软件模拟对视频图像的采集、处理过程。其中预处理过程包含典型的图像处理算法,主要有三大类:去噪,颜色插补和白平衡。文中集中讨论其中的颜色插补和去噪过程。去噪

学位

去噪Bayer型彩色过滤阵列摩尔纹颜色插补

元数据存储和检索—MSR系统设计与实现

随着万维网的普及和社会信息化程度的提高,人们所掌握的知识呈现爆炸性增长的趋势,各个应用领域所积累的信息资源在飞速增长。这些信息资源包括音频、视频、网页、文本等多种

学位

元数据Web服务XOM工具ORM工具XML文件HQL语言SOAP消息Xquery查询转换主题检索

嵌入式Linux2.6的实时化分析与改进

作为最主要的开放源码软件之一,Linux因具有内核源码公开、性能稳定、兼容UNIX、支持多种处理器、网络功能强、安全性高、内核可以剪裁等一系列优点,正迅速进入实时控制领域

学位

嵌入式Linux抢占式内核中断线程化定时器

基于框架的移动平台的消息发布系统的研究

进入21世纪后,科学技术取得了突飞猛进的反展,高科技产品、技术正以前所未有的速度进入人们的生活中,给人们的生活带来了巨大的改变,尤其是以通信技术、互联网技术、软件技术

学位

消息发布系统框架方法移动终端

跨平台网络监控系统的研究与实现

随着电子信息时代的到来,计算机技术和网络技术得到了迅猛发展,国内外大部分公司都逐渐引入办公自动化系统,但是当前企业和公司的网络管理水平相对比较低,管理方法比较混乱,

学位

跨平台网络监控数据包过滤协议分析

医院信息系统中关联规则挖掘的应用研究

数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术，它成为未来信息技术应用的重要目标之一。经过十几年的努力，数据挖掘领域产生了许多新概念和方法。特别是最近几

学位

数据挖掘关联规则医院信息系统医院管理

焊接熔池表面形态与焊接现象模拟

随着我国经济的不断发展，焊接已经成为制造业中非常重要的工艺技术。在我们生活的各个领域所需的产品中，几乎都要用到焊接技术。特别是手工电弧焊因其具有灵活、经济、设备简单

学位

焊接技术熔池表面形态计算机仿真

基于数据挖掘的Snort系统改进模型的研究

网络技术的快速发展和网络应用的普及给人类生产和生活带来了革命性的变化,这也使得人类面临着一种新的威胁—网络安全。入侵检测技术作为一种必要的安全手段,在网络安全领域

学位

入侵检测Snort数据挖掘规则学习

图像分类和图像语义标注的研究

随着多媒体技术的发展和Internet的普及,人们获得各种多媒体信息越来越容易,其中图像是数量最多的一种,如何有效地、快速地从大规模图像数据库中检索出所需要的图像已成为人

学位

基于内容的图像检索图像分类图像语义图像标注纹理分类支持向量机MPEG-7

中文分词及其在基于Lucene的全文检索中的应用

随着网络的发展及普及，电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点，这给信息检索技术带来了机遇和挑战，同时也促进

学位

全文检索Lucene中文分词分词算法哈希

基于句子的网页鉴别与实体关系抽取问题研究

与本文相关的学术论文