中文分词与词性标注的一体化学习及领域适应性技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:coldbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理的研究已经成为热点,而分词与词性标注两个任务作为自然语言研究领域的一个重要分支,同样为大家所关注。分词与词性标注的是自然语言处理的预处理部分,占有重要地位。对于这项工作国内外一般都采取先分词后词性标注的战略,这样做有两个不足:一是可能将分词的错误蔓延到词性标注的阶段中去,造成错误的叠加;二是词性信息在一定程度上能够解决分词中产生的歧义问题。本文的工作正是从这两点出发,将分词与词性标注联合学习,借助词性信息使分词结果更加准确。传统的统计学方法一般都假设训练语料库和测试语料库来自相同的领域,但是实际上并非如此,训练集和测试集往往来自不同的领域,这往往导致标注性能的明显下降。针对目前大多数领域的标注语料明显缺乏的情况,本文期望通过已有的标注语料训练学习到的模型,能够很好地适应另一个未标注语料的领域,即领域适应性问题,这是本文研究的另一个重点。本文的主要贡献在于:(1)针对当前序列化的学习方法的特点与不足,提出了分词与词性标注一体化的学习模型。该模型相比于分词与词性标注单独处理显示出了一定程度上的优越性。(2)对词性标注系统的评测方法做出了一些改进,一定程度上解决了分词结果不同所造成的问题,可以对标注性能提供一个比较全面的评价。(3)针对文本标注语料的领域覆盖度不足的问题,实验比较了领域适应性问题的解决方法。对于多个源领域的领域适应性问题的探索上,设计并实现了选择性投票算法,该算法能够有效利用现有的数据资源,使标注性能大大提高。
其他文献
多媒体的不断普及,它已经成为了我们获取信息的一个重要手段。与此同时,视频安全播出的形势也愈发严峻。数字视频的播出环节比模拟视频复杂得多,播出中常产生的多种异态,而节
在过去的几十年里,传统的关系数据库管理系统在商业数据管理中发挥了非常重要的作用。但是,近年来随着计算机应用技术,特别是Web信息技术的不断发展,当今的数据呈现出了两大
在互联网上,大部分服务器郡是因为服务器的配置不当或女装小正确而被攻击,只要修补已知的安全漏洞,就可以抵抗绝大部分的黑客入侵。但是目前很多企业购买的网络安全产品都采