古汉语自动句读与分词研究

来源 :北京大学 | 被引量 : 3次 | 上传用户:senkooqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古汉语与现代汉语有很大区别,古汉语研究直接套用现代汉语成果并不可行。目前的古汉语现有研究使用的方法相对陈旧。随着深度学习技术的飞速发展,特别是基于海量文本的预训练模型的出现,深度模型在许多现代汉语的自然语言处理任务上的表现都获得巨大的提升。本文的工作试图让古汉语处理领域跟上时代发展。本文在这方面所做的第一项工作就是收集并清洗近4亿字来自互联网上的古汉语语料,并在此基础上完成了古汉语的BERT预训练模型。这是在古汉语研究领域内预训练方法的首次尝试和突破。随后本文以此模型为基础试图解决古汉语研究中的两项关键性基础问题——句读与分词问题。断句及标点任务,也称为句读,是将连续的汉字字符串中添加断开标记或标点符号,使之成为更容易阅读的合理句子。之前学者已经使用过规则方法、传统机器学习方法以及深度学习的序列切割方法,但是普遍存在数据基础薄弱,泛化能力不足等问题。古汉语分词问题与现代汉语分词任务定义相同,但是缺乏现代汉语的大量分词标记语料。既往研究只在极小的领域内进行过尝试,如果打算用在具有上下三千年历史且文体风格各异的古文上,无疑开销巨大,或许将是不可完成的任务。在断句及标点任务上,本文使用BERT预训练模型加微调的解决方案。模型与前人使用的双向GRU模型及本文改进的BiLSTM+CRF等基线模型相比,F1值有十分明显的提升,获得了当前最佳结果,并表现出良好的泛化能力。与评测不同,本文工作在实际运用时,发现古籍文本无句亦无段,是连续的可能长达若干千字的连续文本,设计了基于滑动窗口的句读方法,使得模型可处理的序列长度不受限制。在古汉语分词任务上,本文首次尝试使用无指导方法,通过将非参数贝叶斯模型与预训练BERT深度学习语言建模方法相结合,获得了相当好的基本结果。进一步使用标准语料进行性能提升,可用极少的语料获得与前人大规模语料训练相当的结果。在《左传》数据集上,本文提出的无指导多阶段迭代训练分词方法获得的F1值为90.81%;使用500句分词语料进行弱指导训练时,F1值95.55%,即可达到与前人工作相同水平;如果增加至与前人相同的15万字规模时,本文方法F1值为97.40%,为当前最优。通过对不同时期和风格的文本进行测试,本文在大规模预训练模型基础上进行的工作显示出相当好的泛化能力。这是有指导机器学习方法所不可能做到的。
其他文献
<正>为贯彻汉语国际教育的发展战略、加强两岸三地之间华文教学与研究的学术交流、推动对外汉语的教学与研究,扩大对外汉语教学在台湾和香港各地区的社会与学术影响,2010年4
会议
青少年时期是一个人生理、心理发展变化的关键时期,加强青少年心理健康治理是社会治理和健康中国建设的重要内容。文章运用生态系统理论,从学校、家庭和社区三个环境维度入手
文化是一个民族的根基,文化铸造着国家和民族的心灵和品格,一个民族有了文化自信,才能立于世界民族之林。从党的十七大到十九大,从提出推动“文化大发展大繁荣”,到明确“建
Housing isone of the necessities of humansfor existence and development.The Chinese government hasalways attached great importanceto housing construction;especi
期刊
目的通过对2015年社会组织参与艾滋病防治项目申请书的评审意见进行分析,为未来支持社会组织申请艾滋病防治经费资助提供借鉴与参考。方法整理与分析2015年社会组织参与艾滋
简介了LN7210智能GPIB接口控制器的主要功能、制造工艺以及测试技术。
中越边民通婚是中越边境地区跨境民族的惯常行为,但在现实中遭遇到诸多国家间制度排斥。入境我国通婚的越南边民在结婚登记、人出境、居留、户籍国籍申请等方面面临着诸多的制
陈澧是我国晚清时期岭南地区著名的文学家。他的文学作品反映了晚清时期岭南地区的社会现实,具有很强的时代特征,对晚清岭南文学史的发展产生了深远的影响。其文学作品具有很强的文学研究价值和历史文献价值。然而,受到一些历史性和地域性等客观因素的影响,陈澧的文学作品,尤其是其诗歌和散文作品,还没有受到学术界的充分关注。本文主要从陈澧生活的时代背景和陈澧诗歌、散文作品出发,结合学术界各位前辈的研究成果,对陈澧的
全国汽车保有量在不断增加,能耗也随之增大,汽车的节能减排技术一直是研究的重点。汽车尾气温差发电技术能够将尾气中的低品位废热转化为电能,提高汽车燃油利用率,具有巨大的发展前景。在温差发电系统中,冷端是重要组成部分,冷端的散热能力直接决定整个系统的热电转换效率,因此冷端的研究对于温差发电系统的应用具有重要意义。本文首先基于温差发电系统结构和传热学原理,建立温差发电系统传热模型,并提出冷端的评价标准,为
<正>目的探讨荧光定量PCR法对手足口病病原学诊断价值,以便为临床提供简便易行的实验室方法。方法采集75份具有典型临床表现临床诊断为手足口病患者的粪便标本,提取病毒RNA,
会议