论文部分内容阅读
当今信息时代人们从海量信息中获取自己所要的信息已经成为日常生活和工作所需。目前信息检索系统只能提供给使用者有限的帮助,局限性在于检索准确率低下,即检索返回结果中大量不需要的信息给用户带来的不是帮助而是困扰,是一种噪声。问题的症结在于现有的检索系统采用布尔模型“与”、“或”运算这类“离散型”处理方式,从用户需求和文档中抽取出离散的关键词进行匹配,割断了关键词之间在语义概念上的联系,从而丧失了这些词表达主题思想在概念上的完整性,由此产生大量噪声。关注这一现象和问题是本文的应用背景及其研究起始点。问题的瓶颈首先不在于提高效率的算法上,首要关注点在于如何在整个检索过程中保证用户需求概念完整性(整体性)。因此至关重要的起步是探索如何用概念分析方法标引需求。标引的基本单位不再是纯属形式上的字串而是由汉语词汇所表示的概念及其关联关系构成的完整整体。本文研究汉语用户需求的概念分析及其标引,是概念检索系统及其创新思想的首要组成部分。本质上还原了用户的检索意图,刻画了概念之间的内在联系,旨在保证概念的完整性,直接影响检索性能和实效。与文档分析不同,需求分析的目的不仅是得出用户需求的一个完整的概念(图)表示,更重要的是能准确刻画用户脑海中检索需求所揭示的概念内涵特征。本文注重于用户需求实际现象研究,即实际需求所揭示的概念的分析及其表示形式的归纳,建立了一些探索性方法,处理受限需求分析问题,以期之后可能扩展到整个需求分析领域。本文研究工作是概念检索模型的重要组成部分,为需求概念语义分析提供了有价值的思路和方法。此外对于自然语言处理领域中的一些热点问题,如命名实体识别、语法调试、语义分析等研究有积极意义。本文的创新性有以下几方面:1.用户需求表达式分析充分体现汉语本体的特点,概念分析及其表示凸现了汉语命名实体直接表现概念内涵的特点,实体命名形式反映了概念直接耦合:实体类名加上凸现必要区分特征。概念语义分析有创新。2.选择汉语复合结构作为汉语词语表达式的核心结构,极大的优点在于能简洁扼要表征表达式的概念语义,并且其前瞻性在于适合于多语种翻译自动对齐时简化、省略形态变化,这是基于人类语言体系不同但认知概念可以相通的基本假设。3.提出了针对部分需求的概念模型。需求概念分析基于需求表达式本身的研究分析。本文基于大量真实需求实例分析,总结了需求分析的原则要点,以及需求概念类型。归纳了一部分需求中常见的属性名,用以标引概念之间关联理据。4.提出了一种全新的合一文法调试方法。方便地改造一个已有的基于合一文法的句法分析器,使之适用于新的领域,特别是针对需求表达式的分析。本文将一个合一文法建模成Kripke结构,通过模型检测的方法形式化验证。调试方法能够自动发现文法错误,从而大大降低调试的复杂度。5.针对需求中高频出现的复杂命名实体,提出了一种基于网络挖掘的命名实体识别方法。由此构建了一个两层的关键词形式需求原型分析系统。该系统先将需求表达式中分析出的概念匹配到概念框架图上,框架图反映了领域知识;再余下未匹配的需求概念附着到框架图上以构成最终的概念图。该系统较好地平衡了对于领域知识和通用知识的分析。6.提出了一种基于实例的问句形式需求的概念分析方法,该方法将一个问句的概念分析问题转化为一个机器翻译的问题,其中问句作为源语言,概念图作为目标语言。实际语料分析表明,即使实例集较小,该方法仍能取得较好结果。问句的相似度计算考虑了词汇语义和句法等多种信息,词汇的语义相似度计算采用了混合多种计算模型的集成方法。有利于句子相似度的计算并在现有常用评测集合上取得非常好结果。