词位标注汉语分词中特征模板定量研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:tiantianweb9737l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长。
其他文献
本文探讨了汉藏佛教交流背景下,智化寺造像、法器、彩画等元素围绕净土塑造的主题,依托建筑本体所进行的空间意义构建。重点以各类元素之间的内在秩序为核心,分析了其中涉及
为解决计算机桌面的安全防护问题,在实现安全防护基本功能的基础上,设计了系统安全管理功能,用于对系统各角色进行管理。根据计算机桌面安全防护系统总体设计需求,在借鉴公钥基础
针对单输入多输出(SIMO)系统模型参数的盲辨识问题进行了研究,基于二阶统计量,提出一类改进的子空间辨识算法。依据协方差阵的秩对该矩阵进行分块,在此基础上考虑了实际系统中存在
为了解决Tapestry系统在大规模节点并发失效的情况下高效定位资源节点的问题,提高Tapestry应用系统的工作效率,提出了一种Tapestry逐位匹配路由的改进方案。该方案着重于节点路
<正>近年来,随着国家大力扶持农业发展一系列政策的出台,各地开设农民专业合作社数量惊人。农民专业合作社这种新型的经济互助组织,对于税收管理来说,是个全新的领域。如何做
为满足密码设备的密码资源批量注入需求,提高注入过程的方便性,在研究现用密码资源注入模型及目前蓝牙安全增强方案的基础上,提出了基于蓝牙的密码资源注入模型。针对敏感数
针对光电跟踪系统伺服控制高精度、高实时性的要求,设计了一种基于TMS320F2812DSP和LPC2214ARM嵌入式微处理器的双CPU伺服控制器,利用LPC2214完成外设数据的采集和预处理、外
以‘蓝蝴蝶’‘音箱’‘紫褐’3个鸢尾品种的花粉为试材,采用单因素试验设计方法,研究了自然生长状态下鸢尾花粉的活力变化情况,同时探讨了不同贮藏条件和贮藏时间对花粉生活