论文部分内容阅读
海量文本信息的增长给信息检索带来了极大的困难,当前的智能信息检索技术试图通过信息组织,将文本数据转化为机器可以存储、标引、提取的有序数据,同时通过主题法、分类法、主题分类一体化、知识描述框架、本体等方式对其进行深加工。但在这个过程中,主题法、分类法、本体等解决方案的构建需要花费大量的人力,也需要领域专家的介入。而通过将信息转化为数学的方式,如将检索与文档转化为向量,通过矩阵相似完成检索虽然在计算机上较易实现,但检索结果往往出现大量冗余。在这种情况下,对于信息检索的优化主要靠加权或考虑文档外部因素,如从引用角度上来进行改进就是常用方法之一。本文以语言学知识作为解决当前信息检索困境的新思路,将朱德熙先生的"词组本位"思想、Abney的chunk思想、陈小荷先生语法功能匹配思想、冯志伟先生对于术语语法构成的思想应用于科技文献检索,将短语语法功能知识引入信息检索。通过短语语法功能,在关键词、术语构成上可以从语法角度探讨各组成词汇之间的语法关系,而不是简单的以字面相似度或是各种加权后的值来进行匹配。关键词、术语之间关系将不再通过简单共现表现,而是通过语法功能附加新一层的语义信息。利用短语语法功能对关键词、术语短语的分析,符合朱德熙先生的"词组本位",在关键词、术语构成中,汉语词汇位置会产生很多变化。在"词组本位"思想中,词类与短语不存在一一对应关系,词类可以对应多个语法功能,句子的构建与短语构建相同。在信息检索时,关键词、术语的内部组成词汇由于位置产生的变化,通过语法功能即可描述其内部间的语义关系,而不再受到位置变化所带来的影响。对于词面不同的关键词、术语短语,可以从组成语素以及语法功能的角度找出中心语部分,从而解决由于字面表达不同所带来的检索困难。在以最长长度作为整体的情况下,也可以考察这些关键词之间的语法功能,传统依靠共现的检索,在这里由无向图转化为由语法功能所表示的有向图,若干个关键词之间的语法功能有向图可以构成更高一级的复杂网络,这个网络中所有的结点之间都由语法功能关系进行相连。在对关键词、术语进行语法功能描述时,通过对现有的中文短语树库解析,获取相应的语言学支持。由于分词、词性标注以及树库标注体系的不同,不同中文短语树库中的短语所呈现的语言现象也不同,这些短语分布、短语内部构成上均呈现不均匀性,本文的研究将这些不均匀性通过统计的方式呈现出来,借助文献计量学的思想和理论对短语分布、短语组成分布现象进行了观察。如何利用获取的短语知识通过机器学习对短语进行自动识别是进行语法功能分析的前提,在不同的标注体系中是否都能进行有效识别也是一个难点。不同的机器学习模型自动识别结果也不相同,本文针对这些问题进行了对比试验,最终结果表明条件随机场模型在识别汉语短语序列上可以取的很好的效果,在清华树库和宾州中文树库的试验中均可以取得80%以上的正确率。在对现有树库短语知识分析和机器学习的基础上,通过对CSSCI关键词、标题的切分获取科技文献词汇及词类知识。从语法功能构成上,分析词组型关键词、术语的内部成分。最后通过条件随机场模型识别CSSCI中标题、摘要部分的短语结构,在识别结果中通过语法功能分析其中关键词、术语间的关系,将无向共现问题转化为有向的语法功能关系。