【摘 要】
:
随着科学技术的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的
论文部分内容阅读
随着科学技术的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的信息,而词是最小的能够独立活动的有意义的语言成分。因此将词确定下来是理解自然语言的第一步。然而汉语习惯中词与词之间没有间隔,这就决定了汉语自动分词技术成为自然语言理解中的关键技术。 从上世纪80年代以来,国内外公开报道的汉语自动分词算法数量不下于几十种。在这些方法中,利用统计机器学习理论的分词方法是近年来研究最多的方法,其基本思想就是将汉语分词和词性标注问题转化为分类问题。条件随机场方法就是这其中的一种。它是在传统方法瓶颈情况下诞生的一种统计学习方法,它同时具有隐马尔科夫模型和最大熵马尔科夫模型的优点。此外,该方法还解决了上述模型中出现的标注偏置等问题,而且所有特征可以进行全局归一化,能够求得全局的最优解。 本文基于条件随机场模型,研究了该模型在汉语分词方面的应用。论文的主要工作和特色如下: 首先,深入研究了条件随机场模型的原理,分析了模型的特点及该模型在自然语言处理方面的优势。 其次,在对条件随机场模型理论理解的基础上,设计了这样一个模型,并给出了特征选取、参数估计和解码等算法的详细推导过程。 最后,把这个条件随机场模型加入到汉语分词系统中,开发了一个条件随机场模型训练和汉语分词标注系统。在北京大学标注的1998年1月《人民日报》语料库上进行训练和测试,取得了较好的效果。
其他文献
随着应用软件的规模逐渐由几百行代码扩展到数万行,软件可靠性开始成为一个重要的研究课题。低可靠性经常会导致重要的、灾难性的后果。一个著名的例子就是第一次海湾战争中,
当今的网格研究集中在网格建设、网格系统软件和应用开发上,对于网格使用模型的研究还很少涉及。本文结合网格中心战中传感器网格和国家的织女星网格的开发和研究,对网格使用模
图像修复是指对图像中数据完全丢失的区域进行填充,以恢复其完整性和原有的视觉效果。图像修复是一个比较特殊的病态问题,它是一个从无到有的过程,我们必须根据先验知识,从周
间谍软件(Spyware)是一种有害软件(Malware),是恶意软件的一种,他们被悄悄的植入到用户的电脑上,在未经允许的情况下窃取用户的重要信息和隐私数据。由于间谍软件是一种未经
火灾应急决策对火灾救援非常重要,传统应急决策主要依靠应急预案和专家经验。当前结合计算机技术和数学理论进行辅助应急决策是火灾应急领域研究的一个重要方向。城市火灾应
随着网络中多媒体业务和P2P业务的广泛应用,对网络流量识别与控制技术的研究已成为网络流量管理中的重要课题。网络流量控制是保证网络中关键业务正常运行的重要手段。网络流
正颌外科手术计划及仿真系统研究的两个关键问题是对人体组织的建模和对外科手术术式的仿真。过去的研究中,对手术术式的仿真研究多围绕人体的骨组织进行,对人体软组织的仿真
可压缩传感理论(Compressed Sensing,CS)是信号处理领域新近发展的一种新框架。它的主要内容是:利用稀疏或可压缩信号的少量且非相干的随机线性投影获得信号的编码,通过一定
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜