论文部分内容阅读
近几年,统计中文分词已经成为学术界研究的主流并且在标注数据丰富的新闻领域取得了很好的性能。但是,在非新闻领域,特别是标注数据较少的领域,统计中文分词的性能仍旧差强人意。人工标注的分词数据较难获得,同时互联网上有大量含有潜在切分信息的数据,比如词典、百科知识库的。为了利用这些数据提高统计中文分词在非新闻领域的性能,本文采用不同的方法将不同类型的数据使用一种统一的形式——部分标注数据进行表示。本文使用三种不同的统计分词模型对完整标注和部分标注数据同时进行建模,他们分别是:基于字的结构化感知器模型,基于词的结构化感知器模型以及基于字的条件随机场模型。本文在中文宾州树库(CTB)训练数据上构造部分标注数据并进行实验比较三种模型的性能。实验表明,三种模型都能够利用部分标注数据获得中文分词性能的提升,而基于字的条件随机场模型提升效果最大。同时,本文在网络小说测试数据以及SIGHAN Bakeoff2010领域适应分词评测数据上进行实验,分析本文构造的部分标注数据对于统计中文分词在非新闻领域的作用。本文实验表明部分标注数据能够显著提升统计中文分词模型在非新闻领域的性能。在相应数据集上,本文使用部分标注数据的方法均取得了较前人工作性能相当的实验结果。