论文部分内容阅读
随着文本分类算法的实用化和多语种信息的日益丰富,当机构或组织的文档管理部门日益依赖自动文本分类时,如何解决多语种文档的归类问题成为新的研究热点,跨语言文本分类技术就是在这样的背景下提出的。本文以国家图书文献中心(NSTL)的多语种语料为研究对象,以一部科技类的汉英科技词典为资源工具,提出了一种基于跨语言文本分类的跨语言特征提取方法,实验结果验证了在简单翻译资源条件下对科技文献进行跨语言分类的可行性,也为下一阶段建立实用跨语言文类系统奠定了基础。