论文部分内容阅读
在人工智能的研究领域中,许多实际的应用问题,如知识表示、自动推理、机器学习、规划以及自然语言处理技术等,都具有不确定性和复杂的关系结构双重特征。统计概率方法能够有效的处理不确定性问题,而一阶逻辑语言却能够成功的解决许多复杂性问题。因此,人工智能需要统一概率化模型和一阶逻辑理论。马尔科夫逻辑(Markovr Loigc)作为这样一种描述,满足了它的要求。马尔科夫逻辑是一种功能强大且形式简单的语言,它很好的统一了概率化模型和一阶逻辑理论。马尔科夫逻辑理论的应用领域非常广泛,包括集合分类、邻接预测、基于邻接的聚类、社会网络分析模型以及目标识别等。
本文在前人成果及前期工作的基础上,重点研究了马尔科夫逻辑网络在引文匹配问题和中文命名实体识别问题中的应用。本论文的主要创新点可以归纳如下:
(1)本文在应用马尔科夫逻辑理论到引文匹配问题时,发现Poon—Domingos模型不能很好的处理稀疏型和稠密型的引文记录,特别是混合型引文记录。针对这个问题,我们提出了一种可推广的联合推理模型,该模型能够有效的解决这个问题。但是,在实验时我们发现当我们的模型的参数j>4时,系统资源就消耗殆尽了。其主要原因是在我们的一阶逻辑规则中包含了大量了析取式(“v”)和存在性(“()”)标识符,而Alchemy却不能有效的软化它们。为了克服这个困难,我们提出递归的随机域方法(RecursiveRandom Field—RRF)。RRF却能够有效的软化析取式(“v”)和存在性(“()”)标识符.RRF就是Nested MIN,即本身就是一个MLN.在权重学习和推理上,RRF使MCMC和ICM推理,使用BP来学习权重。在做实验时,我们把每一个MLN都转变为RRF,然后再训练样本和测试数据集。很明显,这样能有效的减少计算成本,降低时间成本,减少了内存的负荷。
(2)本文在研究中文命名实体识别时。发现语言学知识能够很好的用一阶逻辑规则描述,故把马尔科夫逻辑理论应用到中文命名实体识别任务中。首先,我们考虑到必须先识别出简单的命名实体,所以必须使用Boosting算法作为识别任务的第一步。然后,我们写出一阶逻辑规则来识别复杂的命名实体。这一步是此任务的重点,因为一阶逻辑规则的好坏直接影响到整个识别任务的准确率。在这一步,我们不但要考虑识别右边界的规则,更重要的是考虑左边界如何有效的识别。由于左边界的识别比右边界的识别困难得多,所以我们添加了更多的规则。最后,我们利用全局信息来识别缩写的命名实体。这种三层混合模型,从很大程度上提高的中文命名实体识别的准确率,达到了非常满意的结果。
基于以上研究,我们可以得出如下结论:马尔科夫逻辑是一种功能强大的概率化关系模型,它很好的统一了概率化图形模型和一阶逻辑语言。最后,我们对马尔科夫逻辑网络的特点进行了总结,并对马尔科夫逻辑的理论研究和应用研究进行了展望。