【摘 要】
:
随着自然语言处理领域各项研究的发展,语料库尤其是平行语料库作为一种支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。传统的平行语料库构建方法完全依靠人工挑选
论文部分内容阅读
随着自然语言处理领域各项研究的发展,语料库尤其是平行语料库作为一种支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。传统的平行语料库构建方法完全依靠人工挑选,既费时又费力。与此同时互联网上庞大的双语平行资源引起了学者的注意,利用互联网Web的双语平行资源自动构建平行语料库的工作逐渐展开。然而在海量的互联网资源中如何准确定位双语语料的位置并进行抽取以及如何高效利用获取到的平行语料等工作仍面临着诸多挑战。面向这些问题,本文的工作包括:(1)设计并实现了一种双语网站的发现方法,该方法利用双语网站的两种外部特征(锚文本特征,URL特征),制定了一个查询关键字词典,然后利用搜索引擎逐个搜索查询关键词词典里的关键词,最后通过解析搜索结果的网页URL来获取双语网站的URL。(2)设计并实现了一种互译双语网页对的获取与验证方法,该方法首先利用双语网站内双语网页对的URL模式,使用深度优先搜索的方式获取该网站内所有符合URL模式的网页对。然后将网页对的特征(结构特征,内容特征)组成的特征向量输入到训练好的分类器对网页对的互译性进行验证。(3)优化了双语网页对文本的句子抽取和对齐方法,该方法首先将网页对按DOM树结构对齐以后逐行抽取出网页对内的文本,再使用HTML内元素生成文本对齐的锚点,最后使用基于词汇信息的方法对锚点之间的文本进行句子对齐。(4)开发完成了语料检索平台,该平台对获取到的双语平行语料,建立了中英双向的索引,并实现了检索服务。
其他文献
针对我国目前大豆分离蛋白生产得率偏低的现状,探讨提高大豆分离蛋白得率的途径。具体分析了原料、浸泡、粉碎、酸沉、过滤与分离等工艺和设备条件对得率的影响。
黄金茶是一种具有抗菌消炎,抗病毒作用的功能性绿茶,黄酮是其中的重要功能性成分之一。本试验以黄金茶为试验材料,对黄金茶中总黄酮的提取、纯化以及抗氧化活性进行了研究,并对其
针对稻田土壤重金属Cu污染问题,在翻压紫云英条件下,探究化肥与生物炭基肥配施对土壤-水稻系统Cu吸收及转运的影响。采用盆栽试验,设置5个施肥处理:对照(CK,不施肥)、常规施
阐述了湘钢干法除尘后高炉煤气相关设备的腐蚀状况,通过对高炉煤气冷凝水和喷淋洗涤水、高炉煤气饱和水等对管道腐蚀机理研究,提出了盐酸的析氢腐蚀是造成湘钢高炉煤气管道腐
川铸龙洋向以品类繁纷著称,若按版别的产生、演化、发展脉络进行系统分类,则该厂开铸首版的考察与判定,是首当其冲需要解决的问题。笔者不揣冒昧,拟将数年来收集、整理四川银
胡塞尔认为,符号分为有含义的符号即表达,无含义的符号即指号。在此讨论的是:胡塞尔是怎样对符号划分的。在对这个问题分析后,我们将同时结合海德格尔对此问题的研究,给出我
目的探讨应用腔内激光治疗下肢静脉曲张患者在手术室中的护理要点。方法筛选在2017年3月—2018年2月期间在血管外科确诊为下肢静脉曲张的患者34例作为该次试验的研究对象。对
目的定量分析单指数、体素内不相干运动(introvoxel incoherent motion,IVIM)双指数及拉伸指数模型各参数在鉴别布氏杆菌性脊柱炎与脊柱结核中的潜力。材料与方法回顾性分析
随着经济的飞速发展,在政府的支持,社会的广泛关注下,中式快餐业得到了蓬勃的发展,快餐业成为支撑中国第三产业增长的重要力量,同时在生活节奏越来越快的信息时代,也为广大的
近几年来,造假账,造假报表,虚列资产和权益等会计信息失真现象比较严重,出现了一些贪污受贿、偷税漏税、挪用公款等不诚信行为。本文初步分析了企业偷税漏税的原因,并提出了