论文部分内容阅读
分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进行总结、改进、提高,对后续研究提供更完善的支持。 分词在以前的研究中主要采用将MM法(正向最大匹配)、RMM法(逆向最大匹配)相结合的方法,并且对其中的最大交集字段采用比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统计的基础上,将最大交集字段分为三类,并分别对其进行处理,极大的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本中对姓氏、名字用字、姓名前后常用字三方面进行考察。采用在分词后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确率都达到90%以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化,这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的对象进行词性判断。 本课题还有一个任务就是将前几届师兄所做课题从VC移植到JAVA上去,以便于在网上公布。