论文部分内容阅读
随着互联网的进一步发展和普及,以及全球化趋势的进一步深化,互联网上各语种的信息资源呈现出爆炸式的增长。信息时代,信息意味着机会,意味着成败。人们迫切希望从巨量的网络资源中迅速、准确的获取自己感兴趣和有价值的信息。多语言文本聚类技术依托于传统的聚类技术,同时适应了多语言的信息环境,能够较好的满足人们跨语言环境的信息需求。本文首先系统的研究了国内外多语言文本聚类的研究现状,之后,在文本聚类技术的框架内,系统介绍了文本聚类技术的一般过程及各阶段所涉及的关键技术,具体介绍了文本特征表示与相似度计算,特征降维的方法,文本聚类算法以及聚类效果的评价方法等;然后,详细阐述了多语言环境下文本聚类技术的核心内容——多语言文本表示技术,具体介绍了映射到单语言表示空间以及映射到多语言表示空间两种思路。多语言文本的表示基于两种思想,一是通过翻译等方式将多语言文本转换为单语言文,然后在单语言环境下实现聚类;二是通过语义分析技术,发现多语言文本之间的语义关联,在保留多语言的环境下实现文本聚类。语义分析技术中,详细介绍了实验中需要用到的隐含语义标引(LSI)的方法,详细介绍了它的数学基础和基本原理。本文实验部分选取了2736篇中英双语对照新闻语料,选取文本聚类技术中最基本的K-Means聚类算法,基于上述两种思想分别进行了实验,其中,实验一基于在线翻译系统将特征提取后的多语言文本转换为单语言文本,实现了多语言文本的聚类;实验二基于隐含语义标引的方法,通过语义标引发现多语言文本之间的语义关联,构建起混合语言的表示空间,实验了多语言文本的聚类。实验结果表明,在较稳定的翻译系统的支持下,基于翻译转换的思想能够明显提升多语言文本的聚类效果,在翻译系统性能进一步提升的情况下,该方法具有很好的应用前景;基于隐含语义标引的方法由于受到机器性能、聚类工具等的影响,无法系统的完成实验,在本论文完成的实验部分,实验结果显示该方法并没有很明显的提升多语言文本聚类的效果。