【摘 要】
:
本文针对在真实文本中出现最为频繁的人名、地名、组织机构名三种专有名词,提出了一种基于模式匹配的专有名词自动识别方法。主要的研究内容有:分别建立了人名、地名、组织机
【机 构】
:
山西大学计算机与信息技术学院,山西太原030006
【出 处】
:
第十一届全国民族语言文字信息学术研讨会
论文部分内容阅读
本文针对在真实文本中出现最为频繁的人名、地名、组织机构名三种专有名词,提出了一种基于模式匹配的专有名词自动识别方法。主要的研究内容有:分别建立了人名、地名、组织机构名的内部模式集合;采用聚类、评价的方法自动获取中文专有名词上下文模式;采用计算专有名词可信度的方法,在专有名词识别发生冲突时,进行消解处理;设计并实现了中文专有名词自动识别实验系统。选取50万字人民日报语料进行测试,平均召回率达到83.33%,准确率达到80.07%。
其他文献
本文主要研究如何在Linux操作系统OpenSource的开发模式下实现藏文的处理.其主要研究内容包括设计实现目标,分析设计结构模块及选择内码、设置本地化环境、开发输入法、本地
本文提出了一个基于规则的哈萨克语词干提取的一种解决方法。该方法首先找到待切分词的所有可能的词干,然后以带变形词的词典和分类的附加成分表为基础,对找到的若干个词干进
本研究利用表型性状探讨了浙江省沿海地区16份豌豆地方品种资源的遗传多样性。结果表明:26个数量性状的变异系数在2.72%~100.25%之间,24个质量性状Shannon-wiener遗传多样性指
本文探讨了基于LUCENE的藏文信息检索实现方法,采用LUCENE的技术框架加入处理藏文信息的技术,从而实现藏文信息检索.
LINUX操作系统由着原码开放性,稳定性等特点,越来越得到人们的关注有着很好的前景。本文初步地介绍了红旗Linux DC的国际化,本地化的概念,并分析与研究了红旗Linux DC的国际
为建立成熟可靠的红毛丹SRAP-PCR扩增检测技术体系,本研究首先采用单因素实验设计,对反应体系中的DNA模板、Mg2+、d NTPs、Taq DNA聚合酶和引物浓度等5个主要影响因素,设置不
本文主要介绍基于ISO10646的非拉丁化中国少数民族文字的排版技术,涉及蒙古文、托忒文、锡伯文、满文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、德宏傣文、西
本文主要讨论了在印刷维吾尔文字符识别中,通过字母轮廓获得一行图像文本的基线域,进而找到连体字母段的基线域,在基线域中算出字母间的切点,将维吾尔文字母从连体字母段中分
本文首先简单介绍机器翻译研究发展简史和研究动向。然后本文阐述机器翻译系统的分类及特点:机器翻译系统从系统研制的方法分为基于规则的机器翻译系统和基于语料库的机器翻
根据维吾尔语的特点,对Fujisaki量化模型进行了修改,使之用于分析维语语调,以及它在通过规则合成Fo曲线方面的应用。在已建立了的维吾尔语微型语音库的语音数据进行人工切分