利用部分标注数据提高中文分词准确率的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ooo2231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,统计中文分词已经成为学术界研究的主流并且在标注数据丰富的新闻领域取得了很好的性能。但是,在非新闻领域,特别是标注数据较少的领域,统计中文分词的性能仍旧差强人意。人工标注的分词数据较难获得,同时互联网上有大量含有潜在切分信息的数据,比如词典、百科知识库的。为了利用这些数据提高统计中文分词在非新闻领域的性能,本文采用不同的方法将不同类型的数据使用一种统一的形式——部分标注数据进行表示。本文使用三种不同的统计分词模型对完整标注和部分标注数据同时进行建模,他们分别是:基于字的结构化感知器模型,基于词的结构化感知器模型以及基于字的条件随机场模型。本文在中文宾州树库(CTB)训练数据上构造部分标注数据并进行实验比较三种模型的性能。实验表明,三种模型都能够利用部分标注数据获得中文分词性能的提升,而基于字的条件随机场模型提升效果最大。同时,本文在网络小说测试数据以及SIGHAN Bakeoff2010领域适应分词评测数据上进行实验,分析本文构造的部分标注数据对于统计中文分词在非新闻领域的作用。本文实验表明部分标注数据能够显著提升统计中文分词模型在非新闻领域的性能。在相应数据集上,本文使用部分标注数据的方法均取得了较前人工作性能相当的实验结果。
其他文献
缓冲区溢出是指向固定长度的缓冲区中写入超出其预先分配长度的内容,造成缓冲区中数据的溢出,从而覆盖缓冲区相邻的内存空间。缓冲区溢出破坏数据的完整性,导致程序运行失败
网格是继万维网之后出现的一种新型网络计算平台,网格研究的最终目的是为用户提供随处可得的计算力。网格中的资源具有很强的异构性和动态性,所以提供简单方便的使用方式和对网
随着计算机和网络技术的发展,网络已得到广泛的应用,校园网也如雨后春笋,并在现代教育领域扮演越来越重要的角色。与此同时,校园网的安全问题也就变得日益突出。校园网的安全对维
主动网络是一种新型的可编程网络体系结构,其高度的灵活性能够很好地解决传统网络中存在的诸多难以解决的问题。目前主动网络被广泛地应用于可靠多播、Web缓存、服务质量(QoS
在硬盘生产过程中,一个很重要的环节就是伺服刻写。在此环节中,硬盘工作所必须的伺服信息将以特定的格式被写入到碟片中。在分析伺服信息组织格式、编码模式及硬盘伺服刻写系
创建安全的Web应用程序是一项极具挑战性的工作。应用程序的安全性取决于它最薄弱的环节,任何成功的应用程序安全策略的基础都是稳固的身份验证和授权手段,以及提供机密数据的
随着电子商务和电子政务的深入发展,数字签名技术变的越来越重要。与RSA密码体制相比,在密钥长度相同的情况下,椭圆曲线密码体制安全强度更高,因此基于椭圆曲线密码体制的数
一个好的网络入侵检测系统应该是鲁棒的、可扩展的和高效的。人工免疫系统所具有的分布式、自组织和轻量级特性正好满足了网络入侵检测系统的要求,因此人工免疫系统在网络入
由于森林火灾具有突发性和复杂性的特点,将计算机辅助技术应用于森林防火已成为必然的发展趋势。本文通过分析国内外对该课题的研究,提出了一种新的森林防火辅助指挥系统模型
随着计算机技术、网络技术和虚拟现实技术的不断发展,分布式虚拟环境(Distributed Virtual Environment,DVE)作为计算机科学的一个重要领域在理论和应用上都取得了重大的进步