【摘 要】
:
近年来,在自然语言处理的研究和开发中,双语翻译对(包括句子,短语,词汇)的作用日益突显出来,它为跨语言检索和机器翻译等自然语言处理应用提供基础资源。大量的双语翻译对可
论文部分内容阅读
近年来,在自然语言处理的研究和开发中,双语翻译对(包括句子,短语,词汇)的作用日益突显出来,它为跨语言检索和机器翻译等自然语言处理应用提供基础资源。大量的双语翻译对可以明显改进上述基于实例的自然语言应用系统的性能。因而人们提出了很多抓取双语翻译的方法,早期的方法主要是从平行语料里进行抽取。这类方法存在规模不足,领域局限,不能很好处理新词等问题。随着互联网得飞速发展,大量网页中包含了双语翻译对。并且由于互联网自身的多样性和实时性,互联网上的翻译对覆盖面广,而且包含了大量新词。因此,从互联网上抽取双语翻译对已成为了当今信息抽取领域里的研究热点。本文提出了一种新颖的从互联网上获取双语平行翻译对的方法,该方法基于双语平行翻译对在网上会集群式出现的特点,通过一个循环迭代的挖掘方法自动的从互联网上发现,抽取高质量的翻译对。首先利用种子数据从搜索引擎上获取包含种子数据的网页,然后使用一个启发式的评估方法从网页中发现双语平行翻译对。对这些包含集群式出现的双语翻译对的信息区域,我们使用了PAT树的数据结构自动构建抽取模板,然后,根据模板的抽取性能(使用F-measure进行评测)采用Ranking SVM对这些模板进行排序,使用排序后的前10个模板联合表面模板(Surface Pattern)进行翻译对的抽取。最后,再通过使用一个基于源语言和目标语言翻译相关性的SVM分类器,将高质量的翻译对提取出来。本文的主要贡献为:①本文提出了一种滚雪球式的从互联网上抽取翻译对的迭代方法;②本文设计并实现了一个整合式的抽取系统用来从互联网中抽取出高质量中英翻译对。通过大量的实验表明综合自动发现,抽取,验证等模块,该框架可以获得比同类方法更高的抽取性能。
其他文献
随着多媒体技术和计算机网络的飞速发展,数字媒体的制作和传播变得更加方便和快捷,同时,盗版和侵权的问题也日益严重。数字水印技术作为一种数字媒体版权保护的有效方法,近年
人脸检测是指通过对输入图像进行分析,确定其中人脸的数目、大小、位置、姿态等信息的过程。人脸检测作为人脸识别的先期工作,是计算机模式识别领域研究热点,涉及模式识别、图像
推荐系统的目的是向用户推荐用户感兴趣的信息和商品。推荐系统工具和技术是现有商业和研究团体的主要研究课题之一,推荐系统通过滤信息后台预言用户是否会对一个特定项目感兴
在社会网络中,团队的形成是一个一直研究的主题。为了提高成功率以及效率,已经形成了很多研究方法和研究方案。论文中基于一个由专业个体形成的较大规模的社会网络子集来完成相
随着计算机技术和Internet技术的迅猛发展,科研、工业和商业领域所产生的数据正以惊人的速度增加,这些数据集物理上大多分布在不同的地点,但是它们在逻辑上却是一致的。传统的数
全文检索 (Full-Text Retrieval) 是基于内容而不仅是外在特征的检索方式,是信息检索的发展。在全文检索的研究上,取得了不小的进展,有很多成型的理论和工具。关系型数据库对于
模式识别是人工智能领域的重要课题,在很多应用领域,模式识别取得了很好的应用。但是将模式识别技术应用在基于单片机的工业检测领域,是一种新的尝试。在工业检测领域,由于其
增强现实(Augmented reality)技术是一种将真实场景同虚拟场景融合的技术,它的目标是解决真实场景和虚拟场景之间无缝合成的问题。目前AR系统主要的研究工作集中在跟踪、注册
本文在分析现有第四方物流的国内外研究现状的基础上,结合第四方物流的特点和具体的中国农副产品交易平台的“统一市场”项目,提出了“分布式物流”的概念,指出了农副产品交易平台分布式物流服务中的不足——缺乏必要的决策,并由此引出本文主题:统一市场下分布式物流决策支持系统的研究与实现。首先,提出了一个基于多Agent结构的分布式物流信息系统结构和决策支持系统的框架,并分析了其中各个代理的基本功能。其次,对决
当前,网络管理正从集中式向分布式方向发展,多Agent系统以其在解决分布智能问题方面所具有的优势而成为构造下一代网络管理系统的一条全新思路。然而,目前基于多Agent系统的网络