多策略汉英平行语料的过滤方法研究

来源 :厦门大学学报:自然科学版 | 被引量 : 0次 | 上传用户:Z_PEPSI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决汉英平行语料中带噪声的问题,通过设计规则方法、统计方法(包括Zipporah系统、词对齐模型、语言模型)以及神经网络方法(包括翻译模型和双语预训练模型),从不同侧重点对汉英句对平行程度进行度量.结果表明翻译模型和双语预训练模型在过滤优质平行语料任务上有良好表现.最后,对于表现优异的方法,按照加法和乘法两种方式进行加权融合,取得了不错的双语互译评估结果,对语料过滤任务具有一定参考价值.
其他文献
以湖南科技学院为例,研究分析了目前该校“微生物学实验”教学中存在的问题,针对学校培养应用型人才目标,做如下改进:优化实验的教学内容,以“加强基础实验、提高实践能力及体现特色”的原则进行;改革实验的教学方法,以探究式、混合式教学为主并结合线上教学;对实验的考核方式进行改革,采用“平时成绩+实验报告+综合评价”评价体系;加强师资队伍建设并改进评价方式。结果表明,改进后学生分析问题、解决问题及创新能力大幅度提升,促进了学生积极思考、发现新现象并及时改进实验技术方法,进而提高学生的学习效果,推进应用型
“现代微生物学研究技术”是在生物学专业微生物学方向硕士生培养方案中设置的一门专业必修课,本文从教学内容、教学方法、考核方法及教学效果等方面介绍了该课程的教学改革
作为迅速发展的前沿学科及连续性与承接性很强的实验性学科,“分子生物学”课程对于构建研究生知识体系、培养研究生的科研素养、创新意识和工程实践能力具有重要作用.为满足
语文课程在教育领域的地位非常重要.学生文化素养、语言表达能力、写作阅读能力、思想素质的培养和提升都离不开语文教学,学好语文对提升学生各方面能力以及综合素养都有着积
萜类化合物是一类广泛存在于植物中的天然产物,其在食品、药品和化工等多个领域中均有广泛的用途,市场潜力巨大.因此,开发生产萜类化合物等植物天然产物可再生的微生物资源来
为提升混凝土表面开裂、露筋锈蚀和损伤3类病害图像分类效率与准确性,减少人工成本,提出了基于多特征融合的混凝土结构表面病害图像分类算法。该算法通过提取混凝土表面病害图像的纹理特征、灰度直方图特征、颜色特征,以支持向量机(SVM)为分类器,分别训练3类特征的病害图像分类模型,采用特征权重算法估计各个特征的权重系数,借助分类模型与权重系数估计病害图像类别划分的可信度值,根据最小误差原则将病害图像判定为可
针对预应力混凝土(PC)宽浅腹T梁设计和应用中存在的问题,建立了确定PC宽浅腹T梁截面基本特性的计算方法和20 m跨径PC宽浅腹T梁桥的工程模型.采用经试验验证的数值模拟方法对
为探究海绵城市不同典型道路的堵塞物对透水路面渗透性能的影响规律,以西安市为例选取典型城市道路(快速路、主干路、次干路、支路、人行道、停车场)搜集路表堵塞物并将其分
写作一直是初中英语教学中的一个重难点,由于大多数初中学生缺乏语言组织能力和英语表达能力,在日常的写作中,这些弊端都会被充分地体现出来.因此,作为英语教师应该注重提高
为充分研究预约停车位设置方法对路内停车巡航时间的影响,根据深度优先搜索(depth first search,DFS)算法设计了停车寻位的流程、设计仿真运行程序以及仿真的一般场景,提出了