基于古文学的命名实体识别的研究与实现

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:hanyancuiceo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,命名实体识别任务日益受到人们重视,命名实体识别已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理技术的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界和工业界关注的热点问题。近年来,命名实体识别相关的研究逐渐兴起。一系列的算法不断涌现,命名实体的应用场景不断扩展。涵盖了人们生活的方方面面。但现有的算法主要集中在现代文语料,对于古文语料的研究甚少,随着大规模古文语料的数字化,如何从这些语料中挖掘出有价值的实体信息,将给自然语言处理领域以及计算社会学领域带来很重要的意义。在本文中,古文学命名实体相关的研究内容主要包含以下几个方面的工作:古文语料的获取与预处理。由于古文语料(已经作好中文分词处理和命名实体识别标注的)尚不可得,需要研究者自己人工的对于语料进行处理和标注,所以进行本文研究的第一步也是最关键的一步就是获取实验语料,并对获取的古文语料进行预处理。本文主要对宋词语料和史记语料进行研究。基于古文语料新词发现算法的研究。由于中文分词结果的准确性会给命名实体识别的效果带来很大的影响,而且由于古文本身语料的特殊性,很多词语都不在现代汉语词典的收录中,为了提高古文语料的分词准确性,本文基于Apriori算法和LSTM神经网络设计了一套新词发现算法。古文语料中命名实体识别模型的研究。传统的中文命名实体识别的研究主要集中在现代文语料中,针对古文语料的命名实体识别的研究还处于起步阶段,目前对于现代文语料中命名实体识别研究的主流方法是基于最大熵模型、条件随机场模型、神经网络模型等一系列机器学习的方法,本课题结合LSTM神经网络模型以及条件随机场模型探索了在古文语料上的命名实体识别性能。命名实体消岐算法的研究。实体消岐旨在进一步提高命名实体的质量,将含有歧义的实体链接至正确的实体上。本文对传统的PageRank算法进行了改进,融合了新的文本相似性方法,并结合增量证据挖掘,提出了一种基于图排序的中文实体消岐算法,并在现代文语料上进行了验证。
其他文献
本文结合跟单信用证统一惯例《UCP600》,对外贸实务中常见的提单“过期”问题进行了研究。从教科书中过期提单的定义出发,分析了提单“过期”的两种类型的成因和风险,并给出
该文介绍了声强法的有关理论,并对装甲车车内声强分布及向外辐射的声功率进行了测试、分析和计算。测试结果表明:声强法比声压法精度高,使用方便,解决了声压法难以解决的问题
为了远程、实时监测奶牛体温,给疾病诊断和发情状况判断提供科学依据,设计并实现了基于zigbee网络的奶牛体温监测系统.以cc2430芯片为核心开发了测温节点、路由节点和协调器
广西钦州市钦南区康熙岭镇,地处沿海,总人口为38 934人,于2004年1月2日发生一例输入性疟疾,发病率为2·57/10万(1/38 934),现将疫情流行及处理经过报告如下。1流行病学调查患
自20世纪80年代以来,学术界逐渐重视对中国近代高等教育进行研究,并取得了一些研究成果,但对中国近代高等教育的一些问题还存在不同观点。了解中国近代高等教育主要观点和研究状
本文使用一种新的流动显示方法——激光片光运动法和几种实验技巧对湍流边界层中的马蹄形涡进行了观测,发现并描述了其形成的四种方式:二次不稳定式、组合式、变形式和突发式
用厌学情绪量表及心理健康诊断测检 (MHT)对武汉市某小学三~四年级部分学生及五年级全体学生进行心理卫生情况调查。共查出有情绪问题儿童 49名 ,其中男生 2 7名 ,女生 2 2名
企业结合生态型企业建设的要求,可建立以集体智慧为动力,以生态效率为目标,由生态战略、生态动作和生态文化构成的"三位一体"生态型企业协同进化管理框架模型。企业生态观、企
聚乳酸(PLA)和聚己内酯(PCL)互为不相容的生物可降解高分子[1],为了给PLA和PCL混合体系增容增强,本文采用PCL二元醇引发D或L丙交酯开环聚合合成了分子量较低的齐聚乳酸(OLA)和PCL三