词激活力模型在中文词发现中的应用研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:lilianmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息的自动化处理过程中,分词是一个关键步骤。而工程中常用的基于字符串匹配的分词技术,十分依赖分词词典的完备性和准确度。在互联网时代,不断有新词被创造、被使用,也不断有过时的词语被淘汰、被弃用,传统的基于人工标注的词语维护方式,越来越不能适应互联网时代高速迭代的词语维护需求。更加自动化、更加可计算的词语发现方式,对中文信息处理越来越重要。本文提出一种基于词激活力模型的词语发现方法,希望探索从文本大数据的统计信息中发现词语构成规律的方法。词激活力模型是一个统计模型,对文本中广泛存在的激活效应进行二维信息建模,对文本中字、词、实体之间的关系有很好的分析效果。本文假设文本是单字之间通过激活关系构成的序列,并以此为基础建立词激活力模型,进而对单字组词的规律进行探索。文中先对现有的词语发现研究情况作了简要介绍;然后对词激活力模型进行了比较详细的说明;之后对词激活力模型的算法流程进行了设计实现,分析和设计了该模型的大数据处理方案;随后对中文语料集进行了词语发现规律探索实验,总结了词语构成的统计规律;最后对全文做了总结,并提出对未来工作的展望。
其他文献
随着无线通信和卫星通信技术在数量和种类方面不断地增加,实时的监测无线信号变得越来越重要。而在现代通信系统中,对于信号的谱估计是通信系统中一个必不可少的单元,在对随机信
目的:探析呼吸对胸部CT影像的影响,为临床实践提供参考.方法:将2018年8月-2019年8月在我院接受治疗的40例患者作为本次主要研究对象,并随机将其分为对照组和观察组,对照组20
目的:分析加速康复理念在耳鼻喉头颈外科患者身上的应用效果.方法:选取2017年1月到2018年1月期间在我院接受治疗的耳鼻喉头颈外科患者80例作为研究对象,随机分为观察组和对照
目的:探讨重症监护室气管插管患者肺部感染症状的发生原因.方法:本次研究以我院接受治疗的110重症监护室气管插管患者为主,收治时间为2018年6月-2019年4月,对患者肺部感染的
目的:探讨个体化健康教育对小儿哮喘治疗依从性和哮喘控制的影响,为临床小儿哮喘的有效控制提供参考依据.方法:按照完全随机对照原则,选取我院儿科在2017年1月—2018年1月期
目的:对舒芬太尼应用于静脉术后镇痛及临床麻醉的效果进行研究分析.方法:研究对象选取自2018年2月-2019年8月我院所接受的需要进行麻醉手术治疗患者80例,按照手术的前后安排
目的:探究对脑肿瘤手术前后实施磁共振扩散张量成像技术的临床应用价值.方法:将我院2018年8月-2019年8月收治的脑肿瘤患者作为本次主要研究对象,共计30例,对所有的患者在其手