【摘 要】
:
句法分析一直是自然语言处理的一个基础性的研究课题,近年来部分分析,也叫浅层分析、组块分析,成为自然语言处理的热点。现在组块分析广泛用于自然语言处理的众多方面,尤其是
论文部分内容阅读
句法分析一直是自然语言处理的一个基础性的研究课题,近年来部分分析,也叫浅层分析、组块分析,成为自然语言处理的热点。现在组块分析广泛用于自然语言处理的众多方面,尤其是在基于实例的机器翻译EBMT研究中,组块分析是重要技术之一。 随着机器学习理论的发展,越来越多的机器学习方法应用在自然语言处理的中各个领域,尤其是无指导和半指导的机器学习方法。主要原因有:一方面,在很多自然语言处理的方法中,特别是基于统计模型的方法,加标的训练语料是处理的基础。,而训练语料人工加标是需要在极强的专家知识下耗费大量的人力物力;另一方面,网络的高速发展对于自然语言处理来说带来既是机遇又是挑战,网络内容指数级增长,为自然语言处理提供源源不断的免费真实“生”数据。 本文采用半指导的机器学习方法Co-training进行中文组块识别的研究,在论文中,我们定义了中文组块的定义,在可能近似正确模型(PAC)的框架下讨论了Co-training方法的形式化定义。我们通过选取算法理论不同的分类器来定义Co-training方法中的两个“角度”,在选择策略上,我们提出了基于“一致性”的实例添加策略,实验中我们选用基于统计的增益的隐马尔可夫模型(Ttansductive HMM)和基于转换规则的分类器(fnTbl)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高。另外,我们还选用最大熵模型MaxEnt和fnTBL组合重复了实验,结果显示两个分类器的性能在不同程度上都有提高。 实验证明了在我们独特的两个“角度”的定义和基于“一致性”的选择策略下,Co-training算法在中文组块识别的任务中有显著的效果。
其他文献
随着Internet/Intranet技术的成熟,网上资源和应用系统的日益丰富,各种各样的网上教学系统不断涌现,但目前用各种工具软件制作的课件是非结构化的,没有遵循统一的IEEELTSC教学系
人们对于物流所进行的基本活动并不陌生,而物流在中国却是近几年来兴起的概念。现代物流是与能源流、信息流并列的,继劳动力、资源之后的“第三利润源泉”。近几年来电子商务的
梁朝伟上热搜了,原因是得了一个名为“卓别林电影艺术成就奖”的奖项,名头很响,又是亚洲首位,虽然只是个社交性质的奖项,还是足够让看客们兴奋一阵。看客们兴奋的还有社交狂人刘嘉玲撤出的“伟玲糖”,嘉玲姐近些年越来越享受与民同乐的乐趣,在社交媒体和综艺节目中频频投喂给大众适度的私生活,赚得外界一次次艳羡与啧啧称赞。 这是我们熟悉的刘嘉玲,但却是一个无比陌生的梁朝伟。作为华语影坛最伟大的男演员之一,梁朝伟
本课题将计费、协商与接纳控制相结合,提出了基于计费和协商的接纳控制方法。接纳控制的两个目的分别是保证已接纳用户利益不受损害和最大化地利用网络资源。 本文在协
基于角色访问控制是信息系统安全机制的重要保证,如何设计一个结构科学,管理灵活的模型来构建一个安全的访问控制系统,成为当前大型信息管理系统的亟需解决的问题。目前对于经典
本文在深入细致地分析了现有入侵检测系统的各种体系结构、数据源和检测技术,并充分了解和认识了它们各自相应的特点及优缺点的基础上,对多探测器网络入侵检测环境中的报警
11月16日上午,洪洞大槐树寻根祭祖园荣膺国家SA级旅游景区揭牌仪式在景区根雕大门举行。山西省人大常委会副主任、临汾市委书记岳普煜,省文化和旅游厅厅长盛佃清,临汾市委副书记、市长刘予强,市委常委、宣传部长李朝旗,洪洞县委书记郑步电,县委副书记、代县长杨建军共同为洪洞大槐树寻根祭祖园国家SA级旅游景区揭牌。临汾市副市长闫建国主持揭牌仪式。 仪式现场,洪洞县委书记郑步电首先致欢迎辞。洪洞大槐树寻根祭
随着电信产业的迅速发展,电信设备的复杂性和所提供的功能也在不断地增加和更新。如何管理和控制它们使之能够正确、高效地运行就是一个很重要的问题。正是在这种市场需求下,