基于PageRank思想的文本语种分类方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:woainiwgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着机器学习、数据挖掘领域的不断发展,基于其理论的自然语言处理也取得了长足的进步,目前各大门户网站搜索引擎均推出了自己的机器翻译系统,因此作为机器翻译的先导性工作自动化语种识别和分类也成为语言学家计算机科学家的研究热点之一。  本文在总结研究自动化语种分类领域前人的工作成果之后,提出了一种新的基于PageRank算法思想的文本语种分类方法,在此方法中,首先需要通过N-Gram方法将需要分类的多语种语料进行分词,随后将这些词语元素通过一种新的基于PageRank算法思想的图模型关键词排序方法对关键词进行排序,在排序阶段完成后将所得到的排序结果同之前已经分类完成的语料文本经由一种距离相似度对比算法即可完成对于待测多文本语种的分类。  相对于传统语种分类方法,本方法在提高识别精度的同时允许使用者自行添加语料训练素材,由于在关键词排序阶段使用的非监督学习算法,故不需要大量经过人工干预的训练预料对系统进行训练也可以使系统取得不错的识别效果。本文在选取开放式目录工程(ODP)中的各语种分类语料之后,通过与著名语种分类工具TextCat的对比实验进一步验证了本方法的可行性及实用性。
其他文献
轧钢厂高温、强振动的特殊环境决定了钢坯传送距离测量的复杂性。本课题由常州某轧钢厂激光测距传感器项目资助,项目编号:D.11─0108—07,旨在解决实时测量30至50吨重热钢坯的移
随着计算机、移动计算以及传感器网络的发展,计算变得无处不在。在数字化战场条件下,由于战场信息具有复杂性、动态性、异构性等特点,如何对分布在战场环境中的上下文数据进
传感器、嵌入式计算、网络和无线通信四大技术孕育了无线传感器网络。无线传感器网络可以被广泛的应用于军事,商业,医疗救护,环境监测等多方面。由于无线传感器网络通常由大量密
近年来国内的互联网及智能手机、平板等移动终端行业得到了爆炸式的发展和普及,极大地提升了人们的生活质量,使得电脑、智能手机、智能电视等设备成为人们生活中不可或缺的一部
P2P网络作为一种革命性的技术,在战场信息网络中发挥着重大作用。如何在海量战场信息中快速有效地找到符合用户需要的资源,为用户提供实时、可靠、准确的信息服务,实现真正意
数据挖掘近年来获得了越来越多的广泛关注。对大型的、复杂的、信息丰富的数据集进行处理是所有机构组织、企业、政府部门的共同需求。Hadoop提出一个非常有效和实用的工具为
本论文首先对数据仓库的概念、相关理论、设计过程、现有多维数据模型以及ETL(数据抽取、转换和装载)、OLAP:联机分析处理)相关概念进行分析研究,以社区电子服务为背景,对利安
随着移动信息技术的迅猛发展和手机、平板电脑等手持移动设备的普及,数字家庭已成为国内外研究的热点。人们迫切地希望能够实现随时随地的让不同种类的电子设备之间实现互联互
随着计算网格技术的发展,越来越多的资源加入到网格平台中,同时越来越多的应用需要网格平台服务,因此需要开发出能支持不同类型任务提交和管理的Portal门户并设计出相应的网格调
为了改造和利用遗产系统,一类做法是对遗产系统的底层模块进行封装,甚至对遗产系统的源代码进行再开发。这类白盒式的改造方法不仅需要深入研究遗产系统的具体实现,而且需要