论文部分内容阅读
随着信息科学领域基于统计的自然语言处理技术和人文学科领域描述性语言学研究的发展,一些研究机构、企业和组织甚至个人都开发、建设和积累了大量不同规模的语料库。这些语料库作为宝贵财产,已经成为改善和提高自然语言处理方法效率和质量的关键基础,也为语言分析、语言教学、翻译研究和语言学习提供重要的数据资源和知识。目前,有关语料库的研究领域已经形成了一个独立的学科——语料库语言学。如何快速、有效地从语料库中抽取相关信息成为语料库语言学研究中一个至关重要的问题。对语料库数据建模并研究其上的查询处理问题,是语料库中信息抽取技术的基础。本文针对语料库的数据模型、基本查询问题及查询处理方法、关键字查询问题及查询处理方法、基于语句的语义查询问题及查询处理方法和语料库查询系统体系结构及原型系统的实现等几个关键问题进行了研究,论文的主要研究内容如下:首先,使用形式化方法对语料库的概念定义进行精细化的重定义。将语料库的形式化定义与关系模型相结合,对语料库数据建立一种可计算的D-Corpus逻辑模型。分析并证明了D-Corpus模型的完备性。其次,根据D-Corpus模型,对传统语料库上以KWIC输出为中心的语料库查询语义进行分析,给出语料库上的基本查询问题的形式化定义,并分析了这些查询问题的数据复杂度。根据这些查询问题,定义了面向语料库查询处理的包括选择、投影、并、差、笛卡尔积、重命名和递归在内的代数操作,并在此基础上提出了面向语料库查询处理的非递归算法和递归算法,并通过实验对算法进行了分析和验证。第三,研究面向语料库的支持递归语义的关键字查询问题及其查询处理方法。由于面向语料库的关键字查询要求解决用户所提交关键字中存在的递归语义,而传统关系数据库上的关键字查询方法中定义的数据图无法回答这种语义。为此,提出了一种描述关系内元组连接关系的语料库数据图模型,并将关键字查询问题转换为图中搜索分组Steiner树的问题,给出了数据图上关于顶点和边的评分方法,提出了基于动态规划策略的结果树枚举算法,最后通过实验分析也验证了算法的有效性。第四,提出语料库上基于语句的语义查询问题和查询处理方法。针对传统方法的不足,提出一种基于依存语法分析和语义网的语义查询处理方法。首先,通过考虑语句依存语法树中的依存关系集的相似性,提出基于语义网的句子的语义相似度计算方法。其次,提出一种基于有效依存结构的语句句法结构相似度计算方法。再次,提出基于综合考虑语句语义相似度和句法相似度的语句相似度计算方法。最后,根据语句相似度的计算方法提出语料库上基于语句的语义查询处理算法,并通过实验和分析验证了算法的有效性。最后,给出了语料库查询系统体系结构,并依据该体系结构设计和实现了一个语料库查询原型系统R-CQS。将本文提出的三类查询问题及其查询处理方法在原型系统中进行了应用测试。