论文部分内容阅读
专家系统创始人E.A.Feigenbaum有句名言:“专家的知识是专家能力的关键”。同理,我们认为拥有完备、一致并且细腻的自然语言知识是计算语言学得以突破的关键之一。 在计算语言学领域,传统手工方法的失败和后起统计方法、模式识别方法和机器学习方法的成功反映和验证了这一客观现实。 因此在计算语言学领域,本文选择了“汉语词间相关性知识无导获取”和“均衡机器学习分类器构建”2个问题进行了深入的研究。虽然2个问题的研究内容不同,但都属自然语言知识获取(knowledge acquisition)的范畴。目的只有一个:获取完备、细腻的知识,但侧重点不同而已: [1] 汉语词间相关性知识无导获取致力于构建一个通用、细腻的,以词间距离“量”化形式描述的词语相关性基础知识库。 [2] 均衡机器学习分类器的构建是针对自然语言处理中诸多消歧问题提出的一种方法,在认同自然语言中规律知识与例外知识并存假设的基础上,从知识表示、知识获取和知识推理3个方面对它们加以区别对待和处理。 在词语相关性知识无导获取研究中,本文依托信息检索领域的向量空间模型,沿途依次解决以下问题: (a) 通过信息论中的信息增益概念确定上下文各位置信息量,以函数拟和方法确定“信息量位置函数”,并积分信息量确定上下文有效范围的边界,为进一步计算提供“量”上的指导。 (b) 在引入X-矩阵概念的基础上,改进tf.idf词语权重计算提出tf.idf.IG的上下文词语权重计算方法。 (c) 针对词间相关性知识无导获取的目标,定义了3种类型的噪音,并根据客观硬件环境给出了相应的一整套极为有效的噪音消除策略。 (d) 通过词语的2维可视化结果验证噪音消除效果,并提出了根据对其主观满意度确定主成分分析“累计方差贡献率”的策略。同时将获取得到的词语相关性知识库应用于Memory-Based Learning中属性值距离计算中,通过分类正确率检验所得知识的有效性。 自然语言处理中绝大多数问题都可以被形式化为典型的分类问题,如何根据自然语言中规律知识和例外知识各自的特点,构造均衡分类器是本文的另一个研究内容。提取的规则和Memory-Based Learning是认同推理假设极端相左,但却互补性极强的2种机器学习方法,结合这2种方