基于Python的中越双语可比语料构建

来源 :云南大学 | 被引量 : 0次 | 上传用户:kizanliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国“一带一路”战略的实施,我国和东南亚南亚周边国家的经贸合作与联系日益频繁。从技术层面,解决面向东南亚南亚小语种的跨语言沟通交流问题,成为研究的热点。双语语料库的构建是机器翻译、跨语言信息检索、文本分析的基础,一直是自然语言处理领域的研究重点。近年来,随着互联网和自然语言处理技术的发展,双语语料构建技术也在不断进步,基于互联网的采集和处理成为目前的主要构建方法,但对于小语种双语语料来说,因为资源极为匮乏,导致采集和构建技术需要充分考虑其特点,有效挖掘和利用有限资源,以期构建质量较高的语料库。本文以越南语作为构建对象,以数据挖掘技术与分析技术作为切入点,采用了基于跨语言信息检索(CLIR)的方法,通过源语料采集处理、关键词提取、目标语料获取和跨语言文本相似度分析四个方面的关键技术研究,设计构建了中越双语可比语料库。主要研究内容如下:1.源语料采集处理:分析网页特征和结构,编写对应的Python爬虫,下载中国商务部网站日常新闻作为研究的源语言语料。然后利用字符串替换,切片操作去除冗余信息,保留新闻标题及内容。2.关键词提取:在TFIDF算法的基础上,引入多特征因子进行权重计算,输出权重大的词作为关键词以提高关键词提取的准确性。3.目标语料获取:将提取到的关键词借助在线翻译工具翻译成目标检索词,为后续检索工作做准备。为充分利用资源,寻找与中国商务部网站内容相似度较高的越南新闻网站,并分析结构差异,根据越南新闻网站特点,编写爬虫获取目标语料。4.跨语言文本相似度分析:在相似度分析中,为提高分析和检索效率,本文将包含检索词较多的文章结合随机输出的方式对目标文档进行输出,以此完成检索。并利用机器翻译和引入LSI模型对文本进行语义处理,然后采用TFIDF模型进行单一语言文本相似度计算。本文的意义在于通过现有的网络资源,充分进行有价值的信息获取,实现中越双语语料库的构建。实验证明,采用本文的方法,有助于提升关键词提取效果和优化相似度计算,从而提高了中越双语可比语料库的构建质量。本文基于Python语言和相关开源包进行了研究和功能扩展,不仅解决了Python在小语种自然语言处理方面存在的局限性,也为Python语言在小语种双语语料库构建的研究提供借鉴和参考。
其他文献
本文对我国近百余年间(1871-2006)人体寄生虫与寄生虫病代表性研究文献作历史性回顾与评述。从学科发展的视角,对我国医学寄生虫学学科发展的历史背景,学科在酝酿、创建及发
在介绍日本专科护士分类及培养制度的基础上,详细阐述了日本乳癌护理认定护士的产生背景和经过、具体的教育课程内容、认定方法及其职能等,以期对我国专科护士的培养提供参考
近二十年来,我国流行歌曲中融入戏曲音乐元素的现象很受听众的欢迎,让人耳目一新,当现代与传统、流行与古典激情碰撞,流行音乐的文化内涵得以丰富,流行音乐的意义深度更加提
以开放的心态面对世界,并不意味着对霸权的接受和屈服,也不意味着必然生成一种智力依附。的确,在资本主义世界化进程中生成的这个世界,是有着中心-边缘结构的,发达国家总是居高临
目的为了解和分析我国人体重要寄生虫病的流行现状和态势,评估近十年来的防治效果,并为制定防治对策提供科学依据,卫生部于2001年6月2~004年底在全国(除台湾、香港、澳门外)进
利用温州市1951—2008年的逐日降水量资料,通过定义相当暴雨日数,分别分析了相当暴雨日数与汛期降水量和全年总降水量的关系,结果表明二者之间有很好的线性相关性,并建立了回
论述了环境质量评价的基本内容和基本类型、“3S”技术在环境质量评价中的应用及其局限性 ,明确了今后基于“3S”技术的环境质量评价应用发展方向和研究领域 ,特别关注了近年
民事诉讼中律师具有维护当事人正当利益、鉴证诉讼程序、确保诉讼公正的职能,在法制化社会中民事诉讼的工作没有律师的参与,民事诉讼的制度就不能实现健全与完善,现代司法体
本文概要地回顾了人体寄生虫学自19世纪末至20世纪早期确立为生物医学的一个独立学科以来跌宕起伏的发展历程,经历了辉煌发展、遭遇挫折和下降,直至20世纪70年代后期以来的复
<正> 军事法作为一个独立的法律部门出现在我国的法学论坛上,是近几年来的事。那么,军事法有没有自己调整的对象,它调整的对象是什么?这已是一个亟待要求解答的问题。这个问