论文部分内容阅读
随着互联网的发展,网络已成为人们获取信息的重要来源,同时,来自政府部门、学术领域和商业领域的信息也在急剧增加,这些信息涵盖的都是一种多语言的知识库,而普遍的情况是大多数人通常只习惯在自己的母语里查找相关的信息,所以人们能理解的互联网信息往往只是冰山一角。互联网信息的多语言性和人们所能熟练运用语言的有限性,使得语言已经成为人们进行信息获取和理解的主要障碍之一。应运而生的跨语言文本分类技术,作为组织和管理来自政府部门、学术领域、商业领域以及国际性组织内部的多语言文本的有力手段,正受到越来越多的关注。它可以克服语言障碍问题,使用户可以更加有效的管理和定位所需要的信息。基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言文本分类的热点研究技术。基于辞典的模式就是采用双语辞典来做翻译,这里主要的问题是词的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选词的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻译主要是针对文献翻译进行的,文献翻译的缺点是在遇到大文本集合的时候执行效率不高,花费代价太大。目前不通过翻译进行跨语言文本分类的典型技术是Latent Semantic Indexing(LSI)[1],这是一种基于内容概念的技术。LSI技术虽然不需要翻译,但是SVD的计算比较花费时间, K值只能通过反复尝试来确定。针对上述问题,我们提出了一种基于中间语义的跨语言文本分类模型,该模型通过双语语料库的平行文档在统一框架下建模,提取双语之间的语义对应关系。本文较为详细的阐述了基于中间语义的跨语言文本分类模型的原理,研究了其在特征维数和潜在变量对对数变化的情况下的分类性能的稳定性。并把跨语言的文本分类与单语言的文本分类相比较,实验结果显示,基于中间的跨语义语言文本分类具有良好的分类稳定性和准确度。本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了新的基于中间语义的跨语言文本分类模型;第二,建立了一定的中英文平行语料库,为以后扩充中英文平行语料库打下了一定的基础。