基于语料库的字母词语自动提取研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dexter001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,很多最新的术语和专有名词,首先以字母词语的形式出现在汉语中,并日益广泛应用.而字母词语多数是汉语自动分词中的未登录词,其正确识别,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量.本文在对字母词语进行先期考察的基础上,分析了字母词语组成情况的复杂特征和自动识别的难点,结合字母词语的各种统计特征和其独有的特点--字母串"锚点",提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法.并且对字母词语的双语同现问题进行了处理.算法简单,但有效.召回率为100%
其他文献
目的研究分析小儿输液前与患儿及其家属的有效沟通技巧。方法选择我院在2016年3月至2016年5月期间,我院儿科住院部收治的100例小儿输液患者作为研究对象,按照随机数字表法平
(《东岳论丛》1984年第6期)把理性认识看作是一个发展过程,并把它具体划分为知性、理性和意向性三个相互联接的阶段,这并不是笔者的随意想象,而是有着充分根据的。首先,把理
目的:观察血脂蛋白α[-Lp(α)]、血清总胆固醇(TG)、血低密度脂蛋白(LDL-c)、血高密度脂蛋白(HDL-c)、血甘油三酯(TC)、血尿酸(UA)等的水平与糖尿病足(DF)的关系。方法:56例已确诊2型糖尿病(DM
【正】 马克思主义哲学揭示了人类的认识是一个不断从感性认识发展到理性认识,又从理性认识回到实践的循环发展螺旋上升的永无止境的过程。就每一具体认识过程而言,人类的认
自20世纪80年代特别是90年代之后,利益相关者理论成为学界关注的热点。企业的目标不再是股东财富的最大化而是利益相关者价值最大化。对于企业利益相关者范围和分类的研究也
<正>对于一些连接体,由于它们具有共同的加速度,根据F=ma可知,外力可以在多个物体中按质量正比分配,掌握这种思路对解决一些连接体问题很有帮助。例1、如图所示,质量分别为m
在电路问题中,有时涉及如图1所示的电路,R1、R2为固定电阻,R为滑动变阻器,P为变阻器的滑片,这种电路有如下的规律.两并联支路电阻之和R0为定值,电路的总电阻随两支路电阻相差
应用牛顿运动定律解题,常遇到系统中各物体有共同加速度,求系统中某两个物体间的作用力时,常规解法是先用整体法求出加速度,再用隔离法求出两物体间的相互作用力.这种解法要
目前中国在版权战略制定方面重视度不够,FTA中版权条款呈粗放式,仅仅援引TRIPS中的相关规定条款的旧式做法已经无法适应国际知识产权新发展背景下我国版权产业走出去的需求。
随着社会发展,超重和肥胖的发生率呈逐年上涨的趋势,肥胖与糖尿病、高血压、血脂异常代谢关系密切。肥胖是代谢综合征的关键因素,特别与血脂代谢关系密切,高密度脂蛋白是重要的抗