【摘 要】
:
中文命名实体识别是自然语言处理的基础任务,是机器翻译、信息检索、问答系统等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。本文主要采用基于机
论文部分内容阅读
中文命名实体识别是自然语言处理的基础任务,是机器翻译、信息检索、问答系统等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。本文主要采用基于机器学习的方法完成命名实体识别任务。首先,通过分析中文人名、地名的特点,以抽取合适的特征;定义科学的特征模板,并建立了一种基于条件随机场(Conditional Random Fields,CRFs)的中文命名实体识别模型。通过对CRFs的识别结果进行分析,发现CRFs模型中给出的错误标记大都拥有较小的边缘概率,用边缘概率定位到CRFs模型中可能的错误标记,并分别引入了概率统计方法和边界模板的方法对这部分标记进行修正,以优化系统的识别效果。实验证明,这两种混合模型的识别效果明显好于单纯的CRFs方法。另外,提出一种基于Max-Margin Markov Networks模型的地名识别方法。Max-MarginMarkov Networks模型将Max-Margin的思想应用于马尔可夫网络。它综合了支持向量机(Support Vector Machine,SVM)模型和无向图模型的优点。通过地名识别的实验证明,在相同的语料、特征和特征模板的条件下,基于Max-Margin Markov Networks模型的识别效果好于CRFs和SVM模型。最后,提出了一种基于概率特征函数的CRFs模型。CRFs模型是目前最优秀的机器学习模型之一,它定义的特征函数全部是0、1二值形式的,导致丢失一些有用的概率信息。本文在定义特征函数时融入了概率信息,以强化模型的学习能力,然后基于概率特征函数构造条件随机场。通过命名实体识别的实验证明,在相同的条件下,基于概率特征函数的CRFs比传统的CRFs具有更好的机器学习能力。本文的研究成果可应用于其它自然语言处理任务中。
其他文献
随着计算机技术的发展,社会信息化程度的不断提高,计算机水平成为考核个人能力的一个重要标志,计算机考试也已经深入到每一个行业。尤其在教育行业中,传统手工阅卷已经逐渐走向计
移动Ad Hoc网络是一种不需要基础设施的多跳无线网络,网络中的节点既具有无线终端的收发功能又具有为其它节点转发信息的功能。网络中所有节点地位平等、功能相同,没有中心控
嵌入式系统的应用越来越广泛,随着嵌入式系统与网络的日益结合,在嵌入式实时操作系统中引入TCP/IP协议栈,以支持嵌入式设备接入网络,成为嵌入式领域重要的研究方向。作为嵌入
当前,嵌入式系统已经成为人们生活中的一部分。可以在很多应用中找到它们,如家用电器、工业设备、医疗设备、通信设备以及汽车应用等。有些嵌入式系统位于远离其使用者或操作者
聚类和分类是当前计算机人工智能领域的研究热点之一。人们渴望快速而准确地获取并处理信息,可是互联网上数据不但数量庞大,而且结构各异。信息自动聚类和分类技术,成为充分
信息技术和网络的迅速发展,各个应用领域之间的合作越来越频繁,数据的互操作性越来越重要。由于各领域生产方式的高度自治,导致了数据模式的异构性,为实现数据共享和使用,解
海冰是高纬度海域最为突出的海洋灾害之一。与常规遥感技术相比,高光谱监测海冰最大的特点就是光谱分辨率高,蕴含接近连续的光谱信息和丰富的空间信息,可以更加精确地区分海水和不同类型的海冰。高光谱海冰图像一般使用监督分类提高分类精度,典型的方法是基于支持向量机进行分类。对于高光谱海冰遥感图像,受条件限制,实测资料非常稀少,对样本进行标注需要耗费大量的时间和成本。但是如果只使用少量的标签样本训练海冰分类器模
智能优化算法作为新兴的搜索算法,一般是指利用自然界的生物系统与优化过程的某些相似性而逐步发展起来的优化算法,如遗传算法、粒子群算法、蚁群算法等,它们通过对搜索空间
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用
随着无线通信和微电子机械系统(MEMS)以及人工智能技术的飞速发展,人类已经逐渐步入互联网+的时代。无线传感器网络很快地应用于物联网领域中,引起了国内外学术科研机构商界