【摘 要】
:
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用
【基金项目】
:
国家“八六三”高技术研究发展计划基金项目(2006AA012140)~~
论文部分内容阅读
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.
其他文献
目的:研究虫草头孢(Cephalosporium sinensis)菌粉的抗心律失常活性成分。方法:在活性检测结果的指导下,采用硅胶柱色谱法、ODS RP C18高效液相色谱法分离纯化虫草头孢菌粉中的抗
<正>厄瓜多尔位于南美洲西北部,国民经济以石油业、农牧业、渔业和贸易为主,属于经济相对欠发达国家。中国与厄瓜多尔自1980年建交以来,双边关系发展顺利。近年来,两国经贸关
党的十七大报告提出要推动社会主义文化大发展,努力建设社会主义和谐文化。青岛的城市文化充分符合和谐文化的要求。它是人与自然和谐发展的城市文化,体现在其山海城的和谐一
目的分析本院妇幼儿常见急诊处方超适应证用药情况。方法随机抽取本院妇幼急门诊的西药处方,根据临床诊断结果和药品说明书的适应证对处方进行统计,筛选出超适应证的药物,同
中医教育的国际化是中医走向世界的重要途径。通过对广西中医药大学国际传统中医班当前存在的问题进行剖析,并针对性地提出相应的对策,旨在不断完善广西中医药大学国际中医人
NiTi形状记忆合金微弧氧化陶瓷层的制备及其工艺性研究通过微弧氧化的方法在NiTi形状记忆合金表面制备陶瓷层。在微弧氧化之前,用常温王水对NiTi形状记忆合金进行去镍选择性腐
中小学作业作为教学的重要环节,是师生生活的重要内容,具有特殊的规定性。它在本质上是师生的一种特殊生活过程,是师生的一种教育性生活,是师生的一种主体性生活,是教师价值
本文设计来源于“长基线水声定位系统”,该系统可以实现对目标的导航定位。本文主要负责其中便携式水声指令收发机系统的整体硬件设计及显控软件编程。便携式水声指令收发机
极速学习机(extreme learning machine,ELM)是近年提出的一种极其快速且具有良好泛化性保证的单隐层神经网络学习算法.然而ELM随机的设置权值带来的不足是其性能的不稳定.稀
本文旨在系统地论述英国圈地运动的历史背景、过程和后果,并指出这一长达几个世纪的圈地运动构成了英国资本原始积累全部过程的基础,是其主要的方式,英国在圈地运动中跨入了