基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用

被引量 : 0次 | 上传用户:wangshuanghong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前计算机辅助翻译主要存在的问题是,相似度计算的方法存在很大的局限性,并且精度较低。尤其在实际的工程应用上,往往是采用基于词汇的相似度度量方法进行计算的,这在一定程度上限制了翻译记忆库能够发挥的功用。本文针对英汉句子的特点分别进行了相似度计算算法的设计和实现,将词向量这一技术引入到句子的相似度计算中。本文的主要工作包括:1、针对特定领域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建;2、对传统的基于词汇的英语相似度计算方法进行改进,提出了基于词向量的Jaccard相似度与基于词向量的编辑距离结合的方法,相关实验结果显示算法改进取得了较明显的效果提升;3、根据汉语句子的特点,设计并实现汉语句子的相似度计算方法,提出了基于词向量的Jaccard相似度与基于词向量的依存句法相结合的相似度计算方法,实验结果显示效果比之传统的基于词的方法有较大提升;4、将相关英汉句子相似度计算算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。
其他文献
<正>2015年4月1日,阿里云计算与光伏系统解决方案供应商阳光电源达成战略合作协议,基于全新发布的"智慧光伏云i Solar Cloud",推动新能源向"互联网+"模式迈进。这意味着,将有
近年来随着国民经济的高速发展和人民生活水平的快速提高,国内民众的商务和私人旅游需求到达了一个新的高度,国内的酒店业得到了前所未有的发展,各种层次和规模、各种品牌的
教师身份认同是教师专业发展的内核,也是推动教师队伍整体发展的保障。在学校教育场域,各学科教师的身份认同程度直接影响到教师对自身职业的整体感知,也会在更广层面上映射
本文主要從三個層面對西周金文字形書體展開研究。一是借用考古類型學“先分類、後斷代”基本原理,參照殷墟甲骨文分類分組的成功經驗,對西周金文字形書體演變規律進行探索,
新HSK考试是检验汉语教学成果的手段之一,也是学生检测自我学习水平的有效途径。同时,汉语教学水平和方向的提升和改变,对新HSK考试的大纲要求及考查方式也会有所影响。教学
食用油是人类生活中必不可少的能量营养来源,食用油的主要成分是三脂肪酸甘油酯(简称:甘油三酯)。由于脂肪酸的不同导致食用油中的甘油三酯种类复杂多样。目前在世界范围内广
全面深化改革作为中国改革开放时代中的一个新的阶段,具有诸多新的阶段性特征。通过对中国改革开放历程进行历史透视,在此基础上对改革开放时代进行历史展望,可以判断出全面
如何加强教师队伍建设,是技师学院及其主管部门、广大教师共同关注和亟待解决的问题。
由于云计算技术综合了分布式计算、普适计算、并行计算、网络存储、负载平衡和虚拟化等多种技术优势,具有较低的运营开销,较少的资金投入,高度的可扩展性等特点,从而吸引工业
本文主要对于残障人士的出行方式以及生活问题进行研究,旨在解决行动障碍者在轮椅使用过程中遇到的一些不便和障碍。通过对残疾人及行动障碍老年人的日常生活习惯的研究以及