论文部分内容阅读
近几十年来,随着机器学习、数据挖掘领域的不断发展,基于其理论的自然语言处理也取得了长足的进步,目前各大门户网站搜索引擎均推出了自己的机器翻译系统,因此作为机器翻译的先导性工作自动化语种识别和分类也成为语言学家计算机科学家的研究热点之一。 本文在总结研究自动化语种分类领域前人的工作成果之后,提出了一种新的基于PageRank算法思想的文本语种分类方法,在此方法中,首先需要通过N-Gram方法将需要分类的多语种语料进行分词,随后将这些词语元素通过一种新的基于PageRank算法思想的图模型关键词排序方法对关键词进行排序,在排序阶段完成后将所得到的排序结果同之前已经分类完成的语料文本经由一种距离相似度对比算法即可完成对于待测多文本语种的分类。 相对于传统语种分类方法,本方法在提高识别精度的同时允许使用者自行添加语料训练素材,由于在关键词排序阶段使用的非监督学习算法,故不需要大量经过人工干预的训练预料对系统进行训练也可以使系统取得不错的识别效果。本文在选取开放式目录工程(ODP)中的各语种分类语料之后,通过与著名语种分类工具TextCat的对比实验进一步验证了本方法的可行性及实用性。