【摘 要】
:
专有名词识别是中文分词技术必不可少的基础环节,也是中文信息处理任务的关键。因此,专有名词识别对提高网络信息检索、文本分类、语音识别和机器翻译等重要领域的研究有着重
论文部分内容阅读
专有名词识别是中文分词技术必不可少的基础环节,也是中文信息处理任务的关键。因此,专有名词识别对提高网络信息检索、文本分类、语音识别和机器翻译等重要领域的研究有着重要的意义。本文采用基于NSP(N-Shorest Path)和CRFs(Conditional Random Fields)双层模型的专有名词识别方法。首先在低层使用基于N-最短路径粗切分方法,得到字符串的切分结果集,从而最大概率的涵盖了正确的切分结果;然后,在高层采用条件随机域方法,使用低层提交的特征、专有名词的单一和复合特征对文本进行标注,复合特征的加入更有利于挖掘专有名词上下文信息和提高实验系统的准确度。论文引入了多个专有名词词典的存储结构,从而有效的提高系统的查找和匹配速度。本文选用北京大学1998年1月份的《人民日报》语料库作为训练和测试数据,实验测试的地名的召回率和准确率分别为87.42%,83.99%,F-值为85.67%;机构名的召回率和准确率分别为72.13%,70.38%,F-值为71.24%。
其他文献
针对现有的交流变频调速电牵引采煤机和电磁调速电牵引采煤机在使用过程中存在的不足,提出了采用高性能、高可靠的开关磁阻电机调速系统(Switch Reluctance Drive,简称SRD)作
网格(Grid)是一种在互联网的基础上新兴发展的分布式计算结构,其根本目的是协调资源的共享,而实现资源共享的前提是网格资源发现,它为网格资源调度寻找满足应用需求的各种资
近年来,面向对象的开发方法成为大型应用系统开发环境中的主流开发方法,关系数据库成为大型应用系统开发环境中的主流数据存储系统。数据在软件开发过程中表现为对象,而在关
无线信道环境的复杂性、时变性以及传播路径的多样性决定了信号在无线信道中传输必然存在多径传播现象,而由多径传播造成的信道衰落(即多径衰落)是提高数据传输速率和服务质量的
随着网络硬件设备和系统节点价格的不断下降,带有通信网络的闭环控制系统的应用越来越普遍。网络控制系统有非常广泛的应用前景。由于带宽限制和网络堵塞,通信网络不可避免的
人脸识别是模式识别领域中具有广阔应用前景的课题之一,它是一种基于图像信息处理的模式识别系统。随着社会的发展,科学的进步,人们对于身份鉴别的准确性、安全性与实用性也
随着计算机网络的规模和应用范围的不断扩大,能够快速传染的网络蠕虫给计算机网络安全防护工作带来极大的挑战。现有的安全防御工具如入侵检测系统等大多都是采用基于误用的
近年来,在弱监督信息下进行学习已成为机器学习的研究热点,偏标记学习是其中一类重要的弱监督学习框架。在该框架下,训练集中的每个对象对应于输出空间的一个候选标记集合,并
目前,OCR(Optical character recognition,光学字符识别)技术对印刷体汉字的识别已经达到实用效果,但是,对脱机手写汉字的处理却很难满足实际需求,手写汉字的形变是造成这一
进入Web2.0时代以来,互联网发展迅速,各种网站层出不穷,其中恶意网站作为一个安全隐患,其危害性也越来越凸现出来。根据报告统计,我国的恶意网站现状更是不容乐观。恶意网站