论文部分内容阅读
随着我国“一带一路”战略的实施,我国和东南亚南亚周边国家的经贸合作与联系日益频繁。从技术层面,解决面向东南亚南亚小语种的跨语言沟通交流问题,成为研究的热点。双语语料库的构建是机器翻译、跨语言信息检索、文本分析的基础,一直是自然语言处理领域的研究重点。近年来,随着互联网和自然语言处理技术的发展,双语语料构建技术也在不断进步,基于互联网的采集和处理成为目前的主要构建方法,但对于小语种双语语料来说,因为资源极为匮乏,导致采集和构建技术需要充分考虑其特点,有效挖掘和利用有限资源,以期构建质量较高的语料库。本文以越南语作为构建对象,以数据挖掘技术与分析技术作为切入点,采用了基于跨语言信息检索(CLIR)的方法,通过源语料采集处理、关键词提取、目标语料获取和跨语言文本相似度分析四个方面的关键技术研究,设计构建了中越双语可比语料库。主要研究内容如下:1.源语料采集处理:分析网页特征和结构,编写对应的Python爬虫,下载中国商务部网站日常新闻作为研究的源语言语料。然后利用字符串替换,切片操作去除冗余信息,保留新闻标题及内容。2.关键词提取:在TFIDF算法的基础上,引入多特征因子进行权重计算,输出权重大的词作为关键词以提高关键词提取的准确性。3.目标语料获取:将提取到的关键词借助在线翻译工具翻译成目标检索词,为后续检索工作做准备。为充分利用资源,寻找与中国商务部网站内容相似度较高的越南新闻网站,并分析结构差异,根据越南新闻网站特点,编写爬虫获取目标语料。4.跨语言文本相似度分析:在相似度分析中,为提高分析和检索效率,本文将包含检索词较多的文章结合随机输出的方式对目标文档进行输出,以此完成检索。并利用机器翻译和引入LSI模型对文本进行语义处理,然后采用TFIDF模型进行单一语言文本相似度计算。本文的意义在于通过现有的网络资源,充分进行有价值的信息获取,实现中越双语语料库的构建。实验证明,采用本文的方法,有助于提升关键词提取效果和优化相似度计算,从而提高了中越双语可比语料库的构建质量。本文基于Python语言和相关开源包进行了研究和功能扩展,不仅解决了Python在小语种自然语言处理方面存在的局限性,也为Python语言在小语种双语语料库构建的研究提供借鉴和参考。