基于统一模型的中文社交媒体命名实体识别的研究

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:zhochg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,人们迫切须要从海量的文本信息中快速读懂信息,命名实体识别技术运用而生。命名实体识别是指从文本中筛选和识别出人名、机构名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。对很多文本挖掘任务来说,命名实体识别系统是重要的组成部分,研究命名实体识别模型来提升识别效果的方法具有学术和应用价值,意义重大。本文针对在海量未标注的中文社交媒体文本情形下如何提高其命名实体识别的效果问题,提出了一种对中文社交媒体命名实体识别的统一识别模型(UNER,Unified model of Named Entity Recognition)。统一识别模型算法通过权重将一个跨领域学习模型和一个半监督学习模型融合组成。跨领域学习需要确定通用领域和目标领域之间句子的相似度,运用学习率函数来自动调整不同领域句子的学习率,结合转移概率算法,从而实现辅助领域和目标领域之间域的相适应,提高跨领域学习模型的泛化能力。而半监督模型将主动学习与自学习相结合的中文命名实体识别方法,采用置信度函数来调整学习率的方式,不断迭代地从目标域内未标注的语料中提取样本,添加到训练集进行训练,从而选出命名实体。通过主动学习目标域内未标注的信息,极大地降低了人工标注语料的工作量,使得主动学习在海量数据上具有可操作性。实验结果表明:统一识别模型改善了中文社交媒体命名实体识别的效果。统一识别模型融合了跨领域学习模型和半监督学习模型,统一识别模型大大减小人工标注语料的工作和提高了中文社交媒体的命名实体识别效果。
其他文献
目的:探讨五年来昆明地区小儿感染性疾病中革兰阳性细菌学分类,并对细菌耐药情况进行分析,为临床抗生素的合理使用提供客观依据。方法:对我院2002年1月-2006年12月五年间常见感染
目的:探讨特异性免疫治疗(SIT)对儿童哮喘的治疗效果和安全性。方法:对53例尘螨过敏的哮喘患儿采用尘螨标准化变应原进行SIT,通过观察不同时期激素吸入量、肺功能变化和哮喘症状评
绿色生态时代下,服装安全受到人们越来越多的重视。电子信息技术和材料科学等多学科的发展与交叉运用,为服装安全设计提供了更多的可能。文章将iBeacon这项技术作为安全因子
森林小气候的研究是揭示森林生态系统功能、评估森林环境效益的基础,森林小气候资料不但为森林生态学的各项研究提供了基础数据,同时为全球变化对森林生态系统的影响及其响应
中小学阶段是学生知识积累、人格健全最为重要的阶段。核心素养作为学生的基本素养,同时也是评价人才培养最为重要的指标,对学生的成长具有重要意义。文章从班主任的思维角度
目的:观察血管内皮生长因子(vascular endothelial growth factor,VEGF)、γ-干扰素(IFN-1)、白介素-4(IL-4)在大鼠哮喘急性模型中的表达情况,探讨Th细胞亚群的失衡与其表达的相关性。
目的:分析我院3年中呼吸道感染住院患儿抗生素使用情况,探讨抗生素使用的合理性及规范性。方法:采用分层抽样的方法,回顾性地分析1146例患儿首选及联合使用抗生素情况。结果:在首