基于场景的姓名识别

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:nestle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动词法分析是组块分词、信息检索、对话问答、信息抽取等中文信息处理任务的基础。由于汉语的词与词之间没有明确的分隔符,汉语词法分析首先面临着自动分词的问题,而专名(人名、地名、机构名、时间表达、数字表达等)识别则是汉语自动分词的难点之一。专名能否正确识别直接影响分词的效果。姓名识别是专名识别的一个领域,本文绕开先分词再识别的传统方法,提出一种基于场景的中文姓名识别方法。   文章首先分析了中文姓名的结构特征以及姓名在真实文本中出现的复杂情况,同时,结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息和姓名自身信息对中文名实体的影响,提出“场景”概念。接着提出了一种用于在姓名检测中的“回溯正向最长匹配算法”,以此为基础推导出中文名字右边界划分模型。在得到所有场景资源后,将它们作为姓名识别的依据。同时引入了证据理论,利用证据理论在信息融合、决策分析等领域的成功应用,得到姓名融合算法。   同时在保证中文姓名识别准确率的情况下,还尝试识别外来译名。   通过对互联网上随即抽取的大规模真实语料的开放测试,该方法取得了91%以上的召回率和满意的准确率。实验表明:基于场景的姓名识别算法行之有效。
其他文献
配电网规划是配电网建设的重要依据,而配电网建设质量的好坏和电网结构的合理性直接关系到社会和经济的发展,与人民生活息息相关。因此,对配电网规划方案的综合评估与决策,不仅具
现实世界中,大多数的计算机视觉任务都与人类的活动有关,比如智能人机接口、虚拟现实、高级用户接口、智能环境、娱乐、智能视频监控系统、运动分析、医学、教育等。三维人体
随着网络时代的飞速发展,数据和信息充斥着社会生活的各个领域。人们的日常行为逐渐和网络密不可分,人们利用网络获取新闻、进行社交活动和即时通讯,发送和记录工作文档等,这
异构多核处理器的资源分配问题是一系列的决策问题且较为复杂,为了在给定的预算功率约束下实现最佳的性能,需要对系统的各种资源进行有效地分配。运行时的应用程序资源需求与
随着现代工业自动化程度的提高,安全自动化开始由强调设备安全性向着强调现场总线传输的安全性及可靠性的方向发展,而传统的现场总线在某些有实时性和可靠性要求的应用中,在
随着传动技术的发展,多轴多电机传动在各领域内得到广泛的应用。为了提高多电机传动系统的动态和稳态性能,即提高系统的自适应性,以满足一些特定系统对于多电机同步系统的要求,多电机同步控制技术的研究变得日趋重要。本文对转炉倾动系统的多电机同步控制技术进行了研究采用无速度传感器矢量控制技术控制转炉倾动系统的四台电机,主从模式运行,从机以主机为参考模型。各个电机的特性和模型参数存在差异,为解决这种差异造成的参
火力发电作为我国主要的发电形式,带来了两大问题:能源消耗和环境污染。在对热电厂工况参数精准预测的基础上进行优化,实现高热效率低污染物的目标,已经成为国内外学者的重要研究课题。人工神经网络(Artificial neural networks,ANN)作为一种新型高效的建模方法,克服了传统机理建模法对于强耦合、非线性的复杂系统预测精度不高的缺点。但是早期的神经网络模型(如随机梯度下降法)存在训练时间
井下分站是煤矿井下安全监控模块与井上安全监控中心之间的传输枢纽,负责井下与中心站之间的数据采集与通讯。分站能否有效工作决定了煤矿安全监控系统能否顺利实现,在煤矿安