【摘 要】
:
随着统计技术的发展,大规模的双语语料库是机器翻译和跨语言处理中不可缺少的基本资源。平行双语语料库提供了两种相应语言的丰富的匹配信息。通常情况下,获得高质量和大规模
论文部分内容阅读
随着统计技术的发展,大规模的双语语料库是机器翻译和跨语言处理中不可缺少的基本资源。平行双语语料库提供了两种相应语言的丰富的匹配信息。通常情况下,获得高质量和大规模平行双语语料库的难度较大。跨语言信息处理的主流方法之一是利用双语语料库构建互译等价信息对,双语词典或双语命名实体,来支持机器翻译和跨语言信息检索。然而,现有的双语语料库的资源比较缺乏,近年来,从部分双语网站挖掘双语语料库的技术方法,变得越来越重要。特别是,许多新闻网站包含高质量的多语种的新闻资源。众所周知,每一条新闻都是以叙事为主,在新闻翻译成不同语言的情况下,时间、地点、人物和组织机构的信息必须严格匹配。因此,利用这些信息构建双语相比较的语料库是一个很好的方法。而传统的语料库的构建方法,通常采用了基于网络结构信息,相似度计算,跨语言信息检索和维基百科链接等方法。在本文中,我们提出了一种基于事件抽取技术的构建日汉新闻可比的语料库方法。首先,我们通过CRF模型实现分词和命名实体识别,通过命名实体匹配实现命名实体词典构建。我们通过网络爬虫,抽取汉语和日语新闻,然后通过事件抽取技术,结合日汉词典、命名实体词典,和日汉汉字对照表,抽取出特征集,通过计算抽取出的新闻事件的相似性,我们实现了一种使用日汉新闻事件特征的相似度计算方法,并生成篇章对齐抽取结果。最后,我们使用的篇章对齐抽取结果来训练分类器模型,分类器模型用于对日汉新闻篇章对齐的判别。实验结果表明,我们的方法是有效的,它可以克服传统方法的缺点。
其他文献
随着互联网的发展,Web应用和网络应用系统的系统用户和信息量急剧增加,如何提供稳定可靠和快捷的网络服务,充分合理利用计算资源,是业界和学术界共同关注的重要课题。
论文
随着课程教学改革的不断深入,人才培养模式和考核方式也发生了重大变化。作为教育的重要环节——考试方法已经成为教学改革的重点,也成为提高教学效率的重要突破口。
传统
图像中蕴含着丰富的情感语义,图像情感语义识别是图像处理、人工情感、机器学习、认知心理学多领域研究的热点。图像情感是人们观看图像时的情感反应,是人们对图像的一种主观
模糊粗糙集是将粗糙集和模糊集结合起来处理不精确和不确定信息的数学理论。目前关于模糊粗糙集的研究主要集中在模糊粗糙集的定义上,而对于模糊粗糙集约简的研究还比较少。
普适计算的核心是嵌入式系统,在普适计算的环境下,各种嵌入式系统应用正面临着海量数据处理的挑战,特别是在工业现场数据采集系统中,这种挑战主要是如何保证数据处理的高效性、安
随着社会信息化建设的发展,企业和政府部门的大量数据转移到数据库系统之中,数据库安全成为了人们普遍关注的问题。权限管理是数据库安全的基础,只有将数据库中的权限进行合
随着网络的大量普及,存储技术、多媒体技术、数据库技术快速发展,人们对图像的应用要求也日益增长,图像中包含大量的语义信息,图像语义标注是所有图像语义研究的基础。目前,
随着信息技术的快速发展,信息数据量的增长越来越快。磁盘作为数据存储的容器,其容量越来越大,可是CPU和I/O之间的性能差距不断扩大。磁盘数据传输技术的发展速度远远落后于CPU
随着数码设备的普及和Adobe Photoshop,ACD-See等具有强大功能的图像处理软件的广泛应用,将数字图像进行变换、更改变得愈发容易,而对于通过不正当的手段篡改过的图像也愈发难以
随着互联网的发展和普及,垃圾邮件问题日益严重。垃圾邮件的广泛传播不仅加重了网络传输的负担,而且还给用户带来很多不便和危害。研究反垃圾邮件技术,有效地过滤和防范垃圾邮件