在自然汉语中进行分词和词性标注

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dh9998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进行总结、改进、提高,对后续研究提供更完善的支持。 分词在以前的研究中主要采用将MM法(正向最大匹配)、RMM法(逆向最大匹配)相结合的方法,并且对其中的最大交集字段采用比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统计的基础上,将最大交集字段分为三类,并分别对其进行处理,极大的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本中对姓氏、名字用字、姓名前后常用字三方面进行考察。采用在分词后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确率都达到90%以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化,这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的对象进行词性判断。 本课题还有一个任务就是将前几届师兄所做课题从VC移植到JAVA上去,以便于在网上公布。
其他文献
学位
Internet的日益普及,信息共享程度的不断提高,给人们的工作和生活带来了极大的方便。随着嵌入式系统的发展和进步,Internet的触角逐渐地伸向了社会生活的其它领域。可以说,Intern
随着Intenet和Web的飞速发展,XML作为一种可扩展标记语言,其自描述性、内容与表示的分离性等特点使其成为表示各种数据的理想公共格式,大量的数据以XML格式进行存储、发布和
近年来,计算机网络技术正以飞快的速度在不断地发展,各行各业都不断享受到网络技术发展带来的好处,我们正在步入一个信息化的时代。在当今的互联网络世界中,TCP/IP 协议簇已
本文研究了数据挖掘技术的理论以及在客户关系管理中的应用.同时结合客户营销应用深入研究了关联挖掘和关联分类技术.基于经典的关联挖掘算法Apriori,本文从减小数据库搜索空
应用KDD 技术进行数据分析, 对于提高感光材料企业数据分析水平和生产效率具有积极意义。本文根据感光材料领域数据和知识特点,对常用的KDD 技术进行了分析比较。研究了感光
本文介绍了数据仓库的概念、体系结构、设计方法及设计的三级数据模型,介绍了联机分析处理的概念、特性、数据组织方式与基本分析操作,介绍了数据挖掘的概念、特点及方法,同时对
内容管理是当前信息化建设领域的热点。越来越多的机构、企业开始关注研究内容管理,研制开发内容管理系统。有关专家断言,在接下来的信息化建设中,内容管理将是关键所在。 现
本文第一章介绍了数据集成和应用的相关概念,并综述相关的研究背景和相关的研究现状,同时阐明本论文的研究目标、研究意义和主要的研究内容,给本论文作一个概述。第二章对企业数
学位