基于神经网络的中文词法分析系统的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:conanyuexin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文的研究目的是构建一套基于神经网络的中文词法分析(中文分词,词性标注和命名实体识别)系统,主要研究内容包含两点,其一是研究适合中文词法分析任务的具体模型,其二是研究如何将其良好地实现。首先我们多维度地简要介绍了中文词法分析的各个任务,随后调研了当下已有的词法分析系统。接着我们将用于序列标注的神经网络结构拆分为输入层、表示学习层和标签预测层,并逐层展开介绍。随后本文以实验为出发点,探究了不同的输入特征和模型结构在各任务上的效果,确定了适合各个任务的神经网络模型。我们得到的各模型结构不尽相同,但都以双向LSTM结构作为表示学习方法,同时融合手工特征或未标注数据的信息。最后,我们介绍了系统实现的代码结构,并完成系统的速度评估。本论文的研究成果主要包含两点。第一点是通过实验确定了适合各中文词法分析任务的具体神经网络结构。我们选择LTP作为基准线模型,以LTP使用的数据集作为实验数据集。在中文分词任务上,我们的模型在开发集和测试集上的F1值比LTP分别高0.33、0.48个百分点;在词性标注任务上,最优模型在开发集上的Accuracy比基准线高0.2个百分点,测试集上高0.22个点;在命名实体识别上,我们确定的模型在开发集和测试集上的F1值比LTP提升了2.57和0.57个百分点。第二个研究成果体现在系统实现上。我们用清晰地代码结构实现了上述神经网络模型,获得了一套可用的中文词法分析系统。
其他文献
网络的高速发展,使得分散的、异构的计算机资源有机的结合到一起,并且使其形成一个巨大的网格成为可能。相应地,网格中的任务调度也成为一个非常重要的问题。任务调度算法的
近年来计算机网络技术和多媒体技术等取得了快速进步和广泛应用,网络信息的安全和保护问题成为亟待解决的重要问题。数字隐写作为隐蔽通信的重要手段,近年来成为信息安全领域
无线通信技术的发展彻底改变了我们的日常生活,其技术应用涉及自动化控制、跟踪与监控。随着无线传感器网络(Wireless Sensor Network,WSN)技术的发展改进,出现了体域网(Wire
当前,随着掌上电脑、手机等移动设备的迅速普及,越来越多的应用与服务被包含在移动设备中,如短消息、电子邮件的收发以及一些文件的处理等,使得人们对移动设备上具有快速高效
随着Internet的迅速发展,Web作为全球化的信息源已经成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,人们在Web上很难
随着教育改革的提出和信息技术的发展,信息化教学应运而生。信息技术与课程教学的整合已经成为现代教学的趋势和重要手段。本文针对电路理论学习的重点和难点,建立了基本电路学习支撑平台,为学生提供电路理论的自主学习环境,使学生可以省略方程组的计算,而将学习重点直接放在列写电路方程组上。论文首先基于面向对象语言的继承机制,采用组合设计模式实现电路基本元件和组合元件的虚拟化,实现了元件的统一管理,提高了系统的可
H.264是由ITU-T VCEG和][SO/IEC MPEG联合推出的国际视频编码标准。和其它视频标准相比,它采用了一系列新的关键技术,具有较高的视频编码压缩率和网络适应性,从而在数字视频
本文针对短期气候(月、季、年时间尺度)变化的非线性特征以及影响其变化的机制和因素的复杂性,研究了建立在统计学习理论的VC维和结构风险最小化原则基础上的支持向量机(SVM)
电子技术的迅速发展和互联网的普及使得电子医疗数据急剧增加,医疗信息严重过载而数据质量低,很难从中获取有用的数据;我国医疗资源紧缺,就诊压力大。针对这两方面的问题,提出了面
随着计算机的普及和网络技术的飞速发展,新类型的入侵行为层出不穷,人们迫切需要能检测出新类型入侵行为的技术。入侵检测中的异常检测技术从理论上能解决这个问题,因此出现