基于边界熵和卡方统计量的多领域适应性中文分词方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:liuyu80237029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理中,中文分词作为一项基础工作,具有重要的意义。过去的十几年间,经过一系列研究探索,中文分词已取得长足的进步,准确性大为提升。中文分词是中文自然语言处理中最基本的步骤,非常多的研究者对它做了很深入的研究,也因此产生了很多不同的分词方法。字标注分词方法是当前中文分词领域中一种较为有效的分词方法.本文采用有指导的学习方法,基于CRF模型,提出使用边界熵和卡方统计量相结合的特征,进一步改善字标注分词方法的性能.同时,也就AV(Accessor Variety)统计量等当前普遍使用的特征进行了对比.从结果来看,边界熵和卡方统计量的引入,在跨领域适应性上,比其他特征有更好的表现.
其他文献
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特
会议
介绍了多媒体电话话费语音查询、催缴系统。着重围绕如何利用多媒体技术、计算机网络技术与邮电实际业务相结合的问题,阐述了实现实时语音查询、催缴功能与技术要求的方法及体
当代艺术的悲哀是使自己脱离普遍的公众 ,企图运用博物馆、商店里旋转的展示来接近有利可图的消费者 ,艺术要保持强壮的要求十分清楚。但在另一个方面 ,艺术家也要通过各种手
美国开发全数字式高清晰度电视胡德森译编在高清晰度彩色电视技术方面,美国的数字技术正日渐显出优势,大有压倒国外模拟系统,成为未来电视霸主之势。1992年3月,美国联邦通讯委员会负责
为探索流行性脑脊髓膜炎(流脑)的流行规律和流行特征 ,现将本县47年(1952~1998年)疫情资料分析如下。1资料来源资料来自1952~1998年全州县法定报告传染病发病、死亡统计表 ,1952~1998年全州县历年人口资料。2结果
一方水土滋养着一方人,一个民族传承着一种文化。落居在滇西北高原上的大理白族自治州洱源县西部山区的凤羽、炼铁、西山等地的白族聚居区的白族人家每逢破土凿石,竖柱上梁,
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检验,都使得汉语现有词类体系和词类知识暴露出
会议
一次移动电话基站雷击原因的分析及预防措施襄樊市邮电局梁生耀1995年8月10日晚7时30分左右,南漳县邮电局电信楼受到雷电影响,市电供电中断,电信楼供电空气开关跳闸。经恢复供电,移动电话基
本文研究了非监督的中文短语结构句法分析.首次精确重现了Rens Bod在中阐述的非监督数据驱动模型U-DOP.应用U-DOP方法在CTB上达到了提出该方法的原始文献所报道的结果,同时,
会议
缩略语在自然语言中被大量应用,是未登录新词的一大“贡献者”,给自然语言处理带来了诸多困难。在汉语分词、词性标注、命名实体识别、机器翻译和信息检索等领域都受到了缩略语
会议