面向应用的词语处理技术

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qiminming_7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前自动分词系统性能,在歧义切分处理方面已经达到了较高水平,但未登录词识别性能仍有待进一步提高;同时,随着可获得的语料库规模不断扩大和统计方法的兴起,词汇级统计语言模型方法在语音识别、语音合成、机器翻译等领域得到了广泛应用,其中以n元文法最具有代表性。如何有效的缓解统计方法所固有的数据稀疏问题,提高词语线性邻接关系(n-gram)的统计精度是词语处理技术所面临的另一个难点。 本论文依上述两个问题依次展开,首先在原有自动分词系统的基础上,根据人的认知规律,提出了基于可信度的人名识别方法,同时提出和实现了一个基于多特征集成的新词语发现方法;研究了基于线性邻接特征的词语上下文分布相似性计算方法及其数据平滑处理策略,并介绍了该策略在计算机辅助校对系统中的应用。论文的主要内容和创新成果体现在以下几个方面: (1)面向应用的歧义切分技术。歧义切分技术是中文自动分词系统的关键技术之一。特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求。本文从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种“正向最大匹配+回退一字”的交集型歧义字段发现算法,并且针对于不同类型的交集型歧义字段进行了统计分析;综合叙述了GPWS中“规则+例外”的3级实用消歧策略,包括元分词规则、不同类型歧义字段的处理规则,以及基于实例的歧义字段标注方法和动态校正算法;本文对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%; (2)基于分辨模型的人名识别可信度方法。专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文在有关专名的语言事实基础上,论证了专名识别中分辨模型优于生成模型;并基于分辨模型的原理,说明人名用字特征的属性值的应是词表匹配后的落单字的频率,而不是文本中的原始字频;提出了一整套的人名识别用字特征,提出了基于分辨模型的人名识别可信度计算公式,该公式与分词排歧方法合在一起,形成了实用高效的分词技术;同时给出了一个基于自举学习(Bootstrapping)的模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高; (3)多特征集成的新词发现方法。目前大多数分词系统仅仅针对于新闻语料进行训练和测试,因而对于新闻语料的处理性能表现突出,但在其它特定专业领域、小说等白话文中的切分性能却大幅下降。大量存在专业术语、缩略语,以及作者生造的词语等等,给目前的分词系统带来了很大的困难,极大的影响了自动分词系统的性能和可移植性。本文提出和实现了一种基于多特征集成的新词发现方法,综合考虑被处理文本中重复字串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值),以及自动分词系统辅助的边界确认信息等等;提出一种多特征集成和模型自适应训练方法,自动从被抽取文本中选择模型的训练例(包括正例和负例),训练相应的SVM分类器,把多个统计特征统一到一个模型框架下,对候选新词语进行二值分类,克服了传统统计方法中,必须借助于人工标记语料库训练,以决定多特征之间的权重系数和阈值问题,同时也避免了人工标记语料库与被抽取文本之间的差异所带来的训练误差;新词抽取过程在字串PAT-Array数据结构上进行,实验表明,该方法新词发现速度快、省存储,可以作为自动分词系统的有益补充; (4)基于上下文分布的词语相似性计算方法和数据平滑处理策略。统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(n-gram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性;传统的基于回退(back-off)和线性插值方法在一定程度上缓解了数据的稀疏,但它的本质是降低阶数,并未从根本上解决问题,反而加重了低概率事件被忽略的副作用。本文提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngram估计核心词的ngram。本文介绍了相似词集合的确定方法,给出了基于相似词集合的低概率事件的估计方法;考察和分析了汉语词语中的“同形异质”问题,以及汉语词语邻接关系的特点(如:汉语韵律问题等),提出了对单字词和多字词区别对待的观点,即:单字词只与单字词相似,多字词只与多字词相似,同时只对多字词和低频单字词进行相似词语替换;针对于统计方法中所关注的词语线性连接特征和应用目标需求,使用词语在大规模语料库中左右紧邻的bigram分布作为词语的属性特征,并以此基础度量词语之间的相似性;改进了原有IRad距离计算公式,引入了词语分布同一性系数,克服了在IRad距离计算公式中,具有强势接续特征的高频词语和极低频词语的虚假相似问题;使用基于词语分布相似性计算方法改进了计算机辅助校对系统词语接续关系模型,取得了较好的效果。 本文的工作立足于词语处理层面,研究成果可以用于提高目前自动分词系统以及词汇级统计语言模型的精度,从而进一步提高基于词一级中文信息处理应用的性能。
其他文献
随着“信息爆炸”时代的到来,分布式数据库得到了广泛应用。查询作为数据库应用的核心功能,在分布式环境中更具有复杂性。如何在分布式环境上进行优化查询,是衡量分布式数据库系
针对传统建模方法存在的基于ECA规则的工作流模型不易图形可视化以及不能很好支持复杂业务;基于Petri网及其变形的工作流建模在描述复杂业务过程时会使模型变得极度复杂且难于理解;基于活动网络的工作流模型缺乏柔性等问题,本文提出了一种基于扩展ECA规则的工作流建模方法。该方法不仅利用ECA规则的动态交互特性来描述模型,而且在结构上和主体组成上扩展了ECA规则,解决了ECA规则的语义在描述复杂过程时能力
作为智能控制的一个重要分支领域,基于神经网络建模的非线性系统鲁棒自适应控制近年来引起了人们越来越多的重视。本文就此领域的相关问题展开一系列研究,主要研究了一类非线
近年来,随着计算机和互联网的普及以及数据库技术的发展,各个应用领域的数据库中都积累了海量的数据,通过数据挖掘分析和理解这些数据,揭示其中隐藏的有用信息成为当前最为活跃的
近年来,随着计算机应用的普及和不断发展,对于一个建立在集群技术之上,能够实现企业内部网络资源优化利用的作业管理系统的需求变得日益迫切。本文所研究的网络作业管理系统(
近几年来,随着因特网的普及和发展,数字图像的版权问题越来越引起人们的注意,其中数字水印作为版权保护的一种有效手段得到了广泛的关注。按检测时是否需要原始作品或其它辅助参
物联网系统的更新成为物联网广泛应用后的一个突出难题,人工到达安装现场逐个对节点进行更新的传统手段不仅耗费大量的人力与物力,而且是不切实际的,一种远程自动的、支持范
当前,急剧变化的市场环境使得制造企业必须以高度敏捷性来赢得竞争优势。由此,动态调度技术成为调度领域的研究热点,其理论价值和现实意义日益显著。本文以基于知识的动态调
近年来,手机和PDA(PersonalDigitalAssistant,个人数字助理)等无线终端越来越普及。支持KJAVA技术和具有GPRS无线上网功能、大容量存储、高运算能力和宽屏幕的智能手机不断推陈
聚类分析(Clustering Analysis)是数据挖掘研究中一个十分重要的研究方向,数据对象的聚类过程是一种无监督自学习的数据分类过程,聚类分析算法研究是一个极具挑战性的研究课