低频词的中文词性标注研究

来源 :计算机应用与软件 | 被引量 : 10次 | 上传用户:BONNIE111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说
其他文献
针对目前国土资源信息化服务存在的问题,分析ArcIMS技术、Web Services技术、CDN技术及空间数据库技术的技术优势,提出通过整合各项技术的优势设计开发国土资源信息服务系统。结合各技术的优势,重点对系统的逻辑结构、体系结构及数据库进行了详细设计,完善了国土资源信息服务系统建设。最后,对系统的运行效果进行了评价,表明该方案能够更便捷地实现国土资源信息服务系统的应有功能。