基于Web的大规模平行语料库构建方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:Mickey123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模平行语料库是机器翻译、跨语言信息检索等自然语言处理应用的重要资源。互联网上存在着海量的多语言平行资源,以往的一些研究都致力于从一些多语网站中获取平行(即互为翻译)的单语网页对,进而获取平行语料。虽然许多机构都已经展开建设双语平行语料库的工作,但现有语料库在数量、质量以及领域覆盖性等方面还不能满足处理真实文本的需要。目前,学者发现在Web上双语平行资源不仅存在于两个平行的单语网页对中,还存在于双语混合网页中,且存在于双语混合网页内部的平行资源翻译质量更高、数据规模更大、领域覆盖更广。本文的研究就是基于双语混合网页展开,致力于研究如何自动构建一个大规模双语平行语料库。取得的主要成果归纳如下:(?)探索基于Web获取双语混合网页互联网中索引了海量的网页,如何准确获取双语混合网页是个充满挑战的任务。以往的研究都是采用限定目标源的方法,即预先收集大量的源站点(比如英语学习网站、翻译网站等),然后递归下载所有内部网页作为候选双语混合网页。但是该方法中源站点的选择需要人工干预,且获取的网页数量有限。为了克服这些缺点,还有-些研究提出利用搜索引擎和启发式信息自动筛选得到候选源站点,但得到的候选资源良莠不齐,会下载到大量噪音网页。本文提出了一种借助搜索引擎和已获取的小规模平行语料来递归地发现并获取双语混合网页的方法,实验结果表明该方法能够快速地、准确地、持久地获取高质量的双语混合网页。(?)改进了双语平行资源抽取、对齐技术双语混合网页中不仅包含有用的双语平行资源,还包含一些噪音信息,如广告信息、导航信息等,而且平行资源的存在形式多种多样,这些都给平行资源的抽取工作带来困难;此外,平行资源中的词汇量也大大超出双语词典的范围,这又增加了平行资源对齐工作的难度。本文提出通过自动学习平行资源在网页中的存在形式的方法来抽取平行资源,并使用基于长度、双语词典、翻译模型等方法来提高平行语料库的质量。
其他文献
随着Internet技术的广泛应用,人们对信息量的需求变的越来越大。同样在教学活动中,学生对信息量需求也在不断的加大,传统教学模式由于其资源库的局限性,已经无法满足当代学生
便携式拍照设备的普及促进了图像数据的迅速增长,人们对于高效的图像检索方法的需求也越来越迫切。草图图像对于描述人类脑海中的模糊图像概念有着极大的优势,且随着触屏手机
伴随着因特网和Web服务(Web Service)技术的飞速发展,网络上出现了越来越多功能相近的Web服务。在这种情况下,服务使用者就从如何寻找能够满足自己功能需求的服务,转变到了如
B2C电子商务网站系统每天都会生成大量的产品交易数据和访问日志数据,这些数据中蕴含着大量有价值的信息,例如,订单的来源、客户的行为、访问者的兴趣等。分析这些数据,不仅
近年来脑部疾病及创伤严重威胁着人们的生活健康,脑健康问题引起了人们越来越多的关注。借助于医学影像对脑组织进行检查以及定性、定量的分析,从而得到相关脑疾病的信息并给
随着“感知中国”的提出,物联网被正式列为国家新兴战略性产业,写入“政府工作报告”,并且被纳入了国家重点基础研究发展计划(973计划).物联网在我国受到了全社会极大的关注,其中
在当今互联网时代,信息的数量在不断呈现几何式的增长。用户已经不需要担心信息的匮乏,而转向担心如何有效获取信息。搜索引擎作为一支重要力量,极大的提高了用户在海量数据获取
大数据时代,海量知识让人目不暇接,大脑获取的大部分知识来自于视觉,而视觉是最容易获取信息的感官,提升阅读体验成为未来信息领域的核心追求。然而,推进剂配方概念设计过程
网络技术的快速发展带动了网络应用范围的扩大,随之出现了网络安全问题。目前网络攻击手段多达数千种,应对网络安全问题,除了防火墙,比较有效的措施是入侵检测系统。作为主动
随着我国社会经济的高速发展,环境污染问题尤其是空气污染问题越来越严重,引起了社会各界的广泛关注。空气质量预测是研究和治理空气污染问题的重要内容,目前世界上比较先进的空