双语语料获取系统关键技术的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xtepnui2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着统计自然语言处理技术的发展,双语平行语料库在统计机器翻译和跨语言检索领域中的作用已不容忽视。现有双语平行语料库仍然无法满足实际应用的要求,双语语料库成为统计机器翻译系统和跨语言信息检索的发展瓶颈。现在双语语料库的进一步研究成为国内外研究者关注的焦点。目前的英汉语料库主要集中在政府文件、新闻法律和著名文学翻译等特殊领域,因此这种领域不平衡性降低了相关研究在实际应用中的水平,从而使得各项基于语料库的研究陷入瓶颈。为了减轻人工搜索双语语料的工作难度,有必要研究一种高效的双语语料库建设方案,并能够轻易运用到各个领域研究工作中,以替代以往人工获取双语语料库的方式。为解决实际问题提供精确的解决方案对相关研究发展具有非常重要的现实意义。本文从基于不同网站提出了几种获取双语语料的方法。包括面向“爱词霸”的双语语料自动获取,基于中国学术期刊的语料获取,以及基于专利的双语语料获取。本文详细介绍了各个语料的获取方法及过程。针对不同的网站特点提出了不同的双语语料获取方法,实现了大规模双语语料快速准确的自动获取。在获取“爱词霸”的双语语料时,主要采用Nutch爬虫工具,因为对于英文而言,Nutch爬虫效果相对较好,检索也准确,相关性较好。另外,本文放弃从整个互联网中获取双语语料的思路,采用一个全新的双语平行句对的获取途径,即通过获取中国期刊全文数据库中各学术文章的基本信息来获得大规模高质量的英汉双语平行语料。本文获取了超过GB级的大规模双语对齐语料,经人工评价认为非常准确,为做进一步的跨语言信息检索研究做了准备。
其他文献
管理办法的出台,对资产评估行业而言,确实是一个重大利好。管理办法在三个地方明确提到资产评估。一是事前的决策,对投资标的的价值,应当依法委托具有能力的资产评估机构进行评估
报纸
介绍了轻钢厂房结构特点,结合设计经验,从概念、设计等方面指出了门式刚架的设计要点,阐述了门式刚架端板连接节点的设计方法,列出了端板连接节点梁高与弯矩的关系图表,用于
“必胜客绿色小超人”是2010年由中华环境保护基金会联合百胜餐饮集团必胜客品牌在全国17个城市发起的大学生公益环保实践项目,旨在吸引和锻炼优秀的大学生志愿者“大手牵小手
通过对聊城职业技术学院大一新生调查问卷的分析,探讨不同家庭环境对大学生饮食健康的影响,为大学生体质健康研究提供依据。采用整群抽样方法抽取研究对象1148人,用Epidata3.
<正> 提出新闻媒介的四重出售模式,有两个理论前提,一个是新闻媒介所传播的信息可划分为“新闻信息”和“宣传、广告信息”,另一个是人们所接受的新闻信息,既有提高自我的“
为了解决开炼机不适应生产需要的问题,提出更换大功率电机,同时对底座进行了设计。通过对减速箱输入轴及轴瓦强度计算,论证了改造的可行性,实际应用效果表明:升级改造方案具
从综合实践活动开展的策略、效果以及经验等方面探讨如何在中职语文课堂上有效地开展语文综合实践活动,以提高中职生的语文素养。