论文部分内容阅读
文本相似度一直以来都是自然语言处理领域中的一个重要课题,在信息检索,文本挖掘,以及抄袭检测中都有着广泛的应用。文本相似度就是要量化两个不同文本之间的相似程度。目前大多数的研究都仅针对单语言的文本相似度,即相同语言的文本之间的相似度。然而,随着互联网的发展,世界各地各种语言的信息都实时地呈现在网络上,人们已不再满足于获取单一语言的信息,于是跨语言相似搜索,跨语言抄袭检测等日益受到研究机构的重视。通过跨语言相似搜索,可以用一种语言的文本去检索与它相似的其它语言的文本。通过跨语言抄袭检测,可以判定一篇文章是否有抄袭、翻译不同语言的另一篇文章的嫌疑。而他们背后的核心都是跨语言文本相似性度量。本文研究了跨语言文本相似度算法,即不同语言的文本间的相似性量化方法。现有的算法大多不能兼顾准确性、效率、通用性、可扩展性等方面。本文提出了一种新颖的跨语言文本相似度算法。论文的创新主要有以下三个方面:1)提出了一种独立于语言的语义中间层,并在这个中间层上实现了一种名词语义哈希编码。这种语义哈希很好地保持了词与词的相对语义距离,即语义距离与语义哈希值的差正相关。通过将不同语言映射到统一的中间层,得以将经过预处理、消歧的不同语言文本转化为中间层上的语义哈希特征序列,最终在中间层上实现跨语言的文本相似度计算。2)有针对性地提出了一种以概念相关性为主要依据的名词消歧算法,应用于从文本到语义哈希特征序列的转化过程中。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后再进行消歧。此外,借助本文所定义的语义哈希,语义密度的计算复杂度以及整个消歧算法的计算复杂度都得以大幅度降低。3)提出了一种基于语义频率的特征过滤算法。并将语义频率近似地转化为WordNet上的语义深度,结合本文提出的语义哈希,最终通过语义哈希上的位操作高效地实现了特征过滤,剔除了区分能力较弱的高频语义特征。最后,以中文和英文为例对文中提出的算法进行了实验。本文所提出的跨语言文本相似度算法在设计上保证了较好的通用性和可扩展性,因此,尽管在实验中只尝试了中文和英文,若要将算法拓展到其它有WordNet的语言上也是十分容易的。在SemCor语义标注语料库上测试了本文所提出的消歧算法,结果显示该消歧算法与同类非统计算法相比具有更高的准确率。本文还对所提出的跨语言文本相似度算法在一个自建的小型中英文平行语料库上进行了实验,结果显示本文所提出的算法具有较高的准确性,跨语言相似搜索的前10项准确率达到71.7%。此外,还通过实验验证了本文所提出的特征过滤算法的有效性。