基于"大词"实例的中文分词研究

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:aibang027123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注.但是这种分词方法在处理歧义切分方面存在一定的问题.CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分.本文尝试找到一种简单的、基于"大词"实例的机器学习方法解决分词歧义问题.实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分.本文分析了CRF在解决分词歧义时存在的问题,指出CRF在切分训练语料中出现过的字符串时会产生更多新的分词歧义。提出了基于大词的分词方法,将基于大词实例和基于普通词表的分词方法相结合,利用简单的机器学习拟合训练语料,解决测试语料中分词歧义的问题。实验表明,这种方法可以在一定程度上解决分词歧义问题,并且不会产生太多的副作用。大词虽然可以解决部分歧义,但仍需要改进分词策略才能取得更好的效果。对于大词、普通词的切分边界,可以吸取CRF的优点,引入字在词中位置的概率,进一步解决歧义问题。对于OOV的识别,借鉴CRF模型的优点找到一种专用的分词方法,也是下一步的工作。
其他文献
通过改变反应体系中的溶剂,以N,N-二甲基甲酰胺(DMF)为反应溶剂,在硒催化CO/H2O常压体系下,成功的合成了C酸.通过条件实验确定了最佳反应条件:原料硝基物1.5 g(3.0 mmol)、Se
[英]/De Laer C…//Am J Clin Nutr -1999,69(5).-968~972研究的目的旨在确定健康学龄儿童总高半胱氨酸(tHey)的分布,并探讨tHcy与叶酸、VitB12及与成年时心血管疾病的关系.对象与方法对象为1996年1? [English] / De Laer C ... // Am J C
美观装饰是现代珠宝首饰的主导功能。珠宝首饰设计,一直受艺术思潮的影响。现代珠宝首饰设计的思想基础同现代艺术思潮相一致,从传统保守的观念中解脱出来,呈现出多元化趋势
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题.上下文是统计语言学中获取语言
会议
在介绍电磁流量计的基础上,就电磁流量计的工作原理,电磁流量计的特点,应用,电磁流量计的选用,误差,及在生产过程中出现的常见故障和维护等问题进行了阐述.本文在简要介绍电
综合业务数字网技术讲座第二章ISDN的业务(续)赵慧玲(邮电部电信传输研究所)2.4用户终端业务2.4.1用户终端业务的概念ISDN在业务接入点③和⑤所提供的通信业务称为用户终端业务。它包括网络提供的
自动化控制采用北京和利时公司自主研发的DCS控制系统.在该系统中为配合生产工艺要求和现场设备的最大的使用效率,编写了很多的特殊程序和模块,构建了多条控制回路,并在操作
在当前基于信息库的语言教学的启发下,建立了《对外汉语新词教学信息库》.在《信息库》的基础上,对新词的语音、语法、语义、语用等语言信息和社会文化、心理认知等非语言信
会议
本文阐述了在线式气体成分分析仪预处理系统的组成、设计原则、功能、维护注意事项,为故障维修提供依据.在线气体成分分析仪及其预处理系统技术发展迅速,今后将有更多新工艺、
2010年11月20日——23日,第十一届中国瑶族盘王节在广东省乳源“世界过山瑶之乡”隆重举办。来自全球5个国家及全国19个县市的瑶族同胞与当地瑶汉同胞欢聚一堂,庆贺瑶族盛会