论文部分内容阅读
当今社会正处于信息时代,网络上信息量爆炸式增长,其传播速度之快、发展规模之大,达到了空前的水平。更广泛、更迅速、更精准的获取信息,意味着可以掌握先机,从而获取更全面的知识、得到更具有价值的情报、获得更大的经济效益。文本分类是处理文本信息的主要方法之一,可以将信息和知识进行分门别类的组织和管理,从而帮助人们更快更精确地获取信息。但是,在处理大数据规模和多语言语境的文本时,现有的文本分类方法表现出处理效率低下、处理效果较差等一系列问题,已经远远不能满足人们的需求,跨语言的文本分类技术就应运而生。它作为组织和管理多语言文本的有效手段,可以克服不同语言之间的阻碍,使得用户可以更加有效的组织和定位所需要的信息。本文研究跨语言文本分类技术的方法,并针对跨语言文本分类中面临的多语言平行语料匮乏,不同语言文本之间的语言阻隔、主题漂变,以及分类效果较差、效率较低等问题,提出了相应的解决方法。第一,通过机器翻译的方式构建多语言平行语料库,做为实验的数据集。第二,语言阻隔和主题漂变是由于不同语言之间存在着词义、语法以及文化背景的差异,导致不同语言难以相互沟通理解,以及翻译过程中出现文章的主题发生迁移。针对这两个问题,本文引入Word2Vec训练词向量工具参与文本表示,充分考虑语义信息和上下文语境信息,将不同语言的词投影到相同的向量空间之中,成功跨越不同语言之间的壁垒,很好的解决了语言阻隔问题和主题漂变问题。第三,本文提出了两种面向跨语言文本分类问题的新方法,有效的提高了分类的效果和效率。第四,本文构建了跨语言文本分类系统,将两种方法应用到了基于中英法三语平行语料库的跨语言文本分类中去,得到了良好的效果和效率提升。