统计与规则相结合的英语命名实体识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a479704375
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体是文本中基本的信息元素,是正确理解文本的基础.命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体.命名实体识别的研究广泛的应用于诸多自然语言处理任务中,如机器翻译、文本分类、信息检索和自动文摘等,于是它的研究成果必将推动自然语言处理领域的相关研究.该文主要对英语命名实体识别进行了研究.分别利用了标准的隐马尔可夫模型(HMM,HiddenMarkov Model)和改进隐马尔可夫模型并结合规则两种方法进行英语命名实体的识别,并对实验结果进行了分析.该文首先使用标准的HMM对英语命名实体识别进行了实现.通过对结果的分析,发现单纯的依靠HMM而不利用一些待识别文本中的上下文信息、词汇的语义信息及一些外部资源识别效果并不理想.然后该文使用了改进HMM并结合规则的方法对英语命名实体识别进行了实现.通过对数据平滑技术的研究,发现数据稀疏问题是英语命名实体识别需要着重解决的一个问题.数据稀疏问题解决的好与坏,直接决定了系统性能的高低.所以该文在采用了几种典型的数据平滑技术的基础上,又使用了回退模型来处理数据稀疏问题.另外,在对传统的HMM加以改进后,该文又使用了规则方法辅助命名实体识别.对第七届消息理解会议(MUC,Message Understanding Conference)正式测试集进行了开放测试,识别结果的F值达到80﹪以上.
其他文献
自动语音识别技术(Automated Speech Recognition,简称ASR),它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论
对智能家居系统的研究虽然只有短短20年的历史,但其发展速度却是惊人的。现在很多家庭、小区都在某种程度上实现了“智能家居”。智能家居系统的一个重要设计部分是家庭网关的
本文提出了结合两种分形维数作为纹理特征的概念,考虑到分形维数的适用范围,又引入广义维数作为纹理特征的方法,以上述两种不同方法提出的纹理特征为基础,以基于内容的图像检索为
随着电子文本的普及和广泛应用,电子文本逐渐成为人们传递信息,记载重要文件的主要手段之一,针对电子文本的保密传输的研究应运而生.该文在充分调研国内外的相关研究后,结合
本论文对CAN总线技术在激光加工设备控制系统中的应用作了研究,并结合公司H04351项目在国内首次将其成功应用于激光焊接设备控制系统。目前国内的加工设备基本无法做到对激光
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在已成为一个巨大的信息源,如何让互联网信息
本文主要以大庆油田公司试油试采分公司企业信息系统为例论述了B/S与C/S混合构架的多层数据库系统的设计与实现.首先,介绍了在项目需求分析阶段如何利用快速原型化方法与生命
互联网的发展为全球范围内实现高效的资源和信息共享提供了方便,但同时也对信息的安全性提出了严峻的挑战。现在,信息安全已逐渐发展成为信息系统的关键问题。传统的基于主体的
Internet密钥交换(Internet Key Exchange,IKE)协议是IPSec(IP Security)协议族的最重要协议之一,其负责IPSec通讯所用密钥的动态协商.论文首先简要介绍虚拟专用网(Virtual P
基于图像绘制(IBR)技术克服了传统的基于几何多边形绘制技术的三维建模复杂、真实感不强、场景复杂时难以实时刷新等问题,使三维场景的建立变得容易,使复杂的虚拟现实系统能在