面向信息抽取的中文命名实体识别研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:succeeboss1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息抽取是海量文本信息处理的重要环节,旨在为人们提供从海量联机文本中快速、准确地获取有用信息的工具,是一个具有高度理论和实用价值的研究课题。命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正确理解和处理文本信息的基础。进行文本分析时,命名实体识别就成为信息处理的首要任务。另外,命名实体识别的研究还有利于信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作,主要内容如下:1.将条件随机场应用到了中文命名实体识别的研究中。条件随机场作为一种比较新型的机器学习方法,能够克服一些模型中存在的标记偏置问题并避免了严格的独立性假设,在序列标记任务中表现出了良好的性能。2.根据各类命名实体的特点,本文提出了适合于人名、地名以及组织名的特征函数模板,包括各种原子特征模板与组合特征模板,并通过实验验证了各类特征的作用,分析了使用不同的特征模板对识别结果的影响,确定了有效特征。通过将各种反映语言本身规则的特征以及反映训练语料的特征加入到模型中,这些特征有机融合,提高了命名实体识别的性能。3.使用了基于字一级的条件随机场模型进行了命名实体识别实验,并在实验中加入了一定的规则进行结果修正,提高了命名实体识别率。
其他文献
DSP的高速数据处理能力使其在语音、图像、编码、数字设备、通信系统、医疗系统、航空航天等方面得到了广泛的应用。尤其是在视频图像压缩编码方面,通过将DSP技术与Internet
正交频分复用(OFDM)由于频谱效率高、对信道多径时延的鲁棒性强、便于单频网应用等优点而成为数字多媒体广播和各种无线通信的常用技术。这一系统的主要缺点是对时变干扰相当
数字集群通信系统在我国正呈现突飞猛进的发展趋势。TETRA是一种面向下一代数字式移动通讯的开放式标准。TETRA集双向无线电对讲机、移动电话、字符报文传送和数据等优势于一
子宫腹式根除术是治疗宫颈癌和子宫内膜癌的常用的手术方式.手术过程中必须分离输尿管、分离下推膀胱并且广泛剥离膀胱组织,使膀胱组织受到不同程度的刺激和损伤,导致术后膀
疼痛是术后病人最常见的症状,而妇产科接诊的又都是女性患者,女性的疼痛阈值一般较男性低,对疼痛较敏感,而且耐受性差,所以加强护理,解除病人术后疼痛以及缓解病人对疼痛的恐
病毒性肝炎是孕妇最常见的肝脏疾病,病毒性肝炎共分甲、乙、丙、丁、戊等型,甲型及戊型肝炎经消化道传播,乙型肝炎经血液及性接触传播.丙、丁肝炎经血液传播,妊娠妇女为肝炎
OFDM (Orthogonal Frequency-Division Multiplexing,正交频分复用)是一种多载波传输技术。它有着更快的传输速率、优越的抗干扰能力、很高的频谱利用率并成为未来4G通信的核
传感技术,微电机系统技术,嵌入式计算技术和通信技术的快速发展和高度集成,使传感器本身的传感手段更丰富、处理能力更强、体积更趋微型化,单个传感器节点微不足道,但大量的
1924年奈奎斯特推导出在理想低通信道的最高码元传输速率。即为了不失真地恢复模拟信号,采样频率应不小于模拟信号频谱中最高频率的2倍,也称为采样定理[1]。然而,在一些编码
隆鼻手术是在一侧或双侧鼻孔内上缘做一小切口,然后自切口向鼻根部做皮下分离,将修剪雕塑好的硅胶假体植入鼻背下,最后缝合切口.术后即可显现出鼻梁增高的效果,所植入的硅胶