一种字母词语自动标注算法

来源 :厦门大学学报(自然科学版) | 被引量 : 0次 | 上传用户:kuwowangzhen111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则+统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识
其他文献
文字、语言、文化三者相互制约使得语言得以稳态发展。汉字经过两千多年的发展,经历了多次外来语的高潮,文字系统符号虽未发生变异,但汉字表意的同质性规律却被打破
会议
采用夏冬季平茬栽培技术并结合冬春季加温,研究了‘玛斯义陶芬’(MasuiDauphine)无花果周年丰产栽培技术。结果表明,在北京地区冬季平茬不加温日光温室果实发育期为92d,果实
①目的研究MicroRNA10b(miR-10b)与HOXD10在子痫前期疾病患者胎盘中的表达。②方法选取2017年11月~2018年7月唐山工人医院剖宫产分娩的子痫前期患者14例(子痫前期组)、子痫前
自80年代初以来,我国海水贝类养殖业得到了迅猛发展,目前已成为我国北方海洋经济的支柱产业之一[1]。其中,牡蛎养殖业规模逐年扩大,年产量已位居世界首位[2]。然而,时常爆发
<正> 前言考古绘图是把制图学应用于考古学研究的一门技术。自考古学诞生时起,考古绘图就贯穿于考古工作的始终,它用制图学的理论和方法形象地记录和说明考古发掘材料,是考古
1.统计文化的主要内容。物质的统计文化包括统计机构、统计工作条件、统计产品的载体等。精神的统计文化包括统计活动的指导思想、统计部门的行业风气、统计队伍的职业道德和工
防范系统性金融风险和防治环境污染,是新时代两大发展难题,绿色信贷是破解两大发展难题的关键。绿色信贷发展初期收益低成本高的规模不经济必然会影响银行利润,长期对其财务
2008年全球金融危机以来,国际经济持续低迷,各国纷纷把眼光集中于战略性新兴产业的发展,以期望实现产业优化升级,打破经济僵局。作为发展中大国,为实现经济跨越式和可持续发展,中国
源代码抄袭检测,是识别程序代码相似性的一项重要应用。本文针对计算机编程语言教学考核中对程序设计客观性和真实性的要求,寻找能够智能识别C程序抄袭代码的方法,实现具有高
户籍制度是我国一项基本的国家行政制度,事关国计民生,意义重大。随着经济社会的纵深发展,户籍制度改革已成为我国现阶段制度改革中所面临的重大课题之一。科学研究影响农户参与