论文部分内容阅读
网页是传递信息的重要载体,以网页作为研究对象是现今信息检索与信息抽取研究的必然趋势。鉴于句子既是传递信息的基本单位,又是表达完整意思的语言单位,本文以句子为出发点对网页鉴别与实体关系抽取问题进行研究。具体内容如下。 首先,定性分析基于句子网页鉴别的难易程度。网页鉴别是以网页中是否含有人们给定的句子为依据来鉴别网页内容。句子的各种变化形式可以表达相同含义的特点,给网页鉴别带来了困难。为了解决该问题,先根据句子的不同变化方式,定义句子与网页之间的五种关系:属于关系、同义词替换关系、简单语序变换关系、复杂语序变换关系和推导变换关系。再讨论每一种关系的识别问题,证明:识别句子与网页的属于关系是可判定问题并且是P问题;识别同义词替换关系是不可判定问题;识别简单语序变换关系是不可判定问题;识别复杂语序变换关系是不可识别问题;识别推导变换关系是不可识别问题。上述结论勾画出了网页鉴别研究难易程度的谱系。 其次,给出网页鉴别算法。针对网页鉴别中,汉语句子与网页之间每一种关系的识别,分别给出不同的识别算法。对于属于关系,通过Karp-Rabin Hash函数把句子表示成指纹,给出基于指纹的识别算法。对于同义词替换关系,利用现有的词义消歧技术,给出基于无指导词义分析的识别算法。对于简单语序变换关系,给出基于无指导句法分析和词语共现的两种识别算法,并比较了它们的识别性能。对于复杂语序变换关系,针对“被”、“把”字句,以及增加修饰成分而产生的新句子的识别,给出基于无指导句法分析的特殊形式识别算法;对于推导变换关系,针对由词的上下位关系而产生的推导变换形式的识别,给出基于词义层次树的识别算法。同时,对每一种算法的识别性能进行了实验分析与验证。 然后,研究基于句子的实体关系抽取问题。该问题是在网页中寻找一个句子,且句子中存在满足指定关系的两个实体,并将这两个实体抽取出来。实体表现形式的多样性、隐式实体关系的存在,以及句子的各种变化可以表达相同含义的特点,给实体关系的抽取带来了困难。为了研究该问题,先定性分析问题的难易程度,证明其为一个不可判定问题,再提出基于一致性明确表述的抽取算法。该算法为了提高关系抽取的准确率,引入两个假设条件,并以此为基础,通过词语匹配的方式判断网页句子中是否存在满足指定关系的两个实体。同时,通过理论分析和实验验证抽取算法是有效的。 最后,研究实体关系的闭包求解问题。该问题是在基于句子实体关系抽取结果的基础上,研究如何利用已经抽取出的实体关系,推导出隐含在关系中的其它实体序偶。为了研究该问题,先定性分析问题的难易程度,证明它是一个不可识别问题;再针对导致该问题是不可识别的原因,提出基于推导规则的求解算法。该算法通过人为指定推导规则,将实体关系闭包中的序偶限定为仅满足人们感兴趣的有限个实体关系,从而求解出实体关系的闭包。理论分析和实验显示,求解算法是有效的。