论文部分内容阅读
使用电子计算机来处理自然语言,每一步都需要机器词典的协助。信息抽取、词义消歧、信息检索、机器翻译、智能问答系统、人机对话等所有的计算语言学自动处理技术解决问题的前提是拥有一部或多部涵盖相应语言知识的机器词典。机器词典是一个知识库,只有具备了知识库中的知识才能够处理语言问题。机器词典是计算语言学应用的前提。构建实用的有效的电子词典,一直是自然语言处理方向的重点研究问题,也是计算机智能化的关键技术问题。一直以来,中外的计算语言学者对机器词典的构建思想和构建方法各持己见,所以机器词典的构造方法方式多种多样,能够使用并解决问题的却非常少。除了WordNet和FrameNet鲜有词典能够一直发展使用。本文作者从人类认知的角度出发,从人类大脑对知识的理解角度进行探索,并结合WordNet和FrameNet的词典构造原理,提出了一套构建领域词典的方法。本文所作的主要工作如下:(1)通过研读大量文献资料,理清了词典的发展历史,理清了词典和其他知识的关系,包括语言学,认知科学,认知语言学以及词典演变过程中出现的一门相对独立的科学——词典学。(2)在以往的文献资料的基础上,对WordNet和FrameNet进行了更细致和深入的剖析。对同义词集和框架语义学进行了详细的阐述,并从中获得了启发,以Gruber题元角色理论、G.Miller同义词集理论、Charles J.Fillmore格理论和框架语义学理论为基础提出了自己的一套观点,建立基于WordNet和FrameNet的领域语义词典。(3)说明了领域词典中从知识库到词汇模块的数据组织方式。采用尾字哈希表-词长索引表-词条链表模式。给出了词典中词的具体存放方式,并且给出了具体的词汇单元块模型。(4)将设计的领域语义词典用于分词系统和场景搜索中,利用词汇单元本身记录的角色选择限制信息通过检测谓词论元的匹配问题来解决分词中最大的障碍——歧义问题。场景搜索通过相关算法匹配词汇的静态和动态属性,设定阈值,显示最终结果词汇