海事新闻标签提取技术研究与应用

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:lipengru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海洋资源的合理开发应用,海洋事务随之不断扩展,如航海、港口讯息、海洋教育、班轮运价、航运物流动态等,使得人们对海事相关新闻的关注日益增加,然而新闻生产和传播之迅速,如何有效准确的分发这些新闻,用户如何快速筛选出需要的新闻变得越来越重要。将新闻中的关键信息作为新闻的标签,用这些标签来代替一个内容复杂的新闻,这些标签就是对新闻更简单的,更具有代表性的体现。但海事新闻领域文本具有高度专业性内容,以及海事领域内大量的专有名词,通用领域的标签提取模型难以达到良好的效果。本文针对以上存在的问题提出了集成模型BERT-BiLSTM-CRF,结合海事新闻文本特征,引入BERT预训练模型进行词嵌入,构建基于预训练语言模型与双向长短时记忆网络拼接后的集成模型BERT-BiLSTM-CRF来完成海事新闻标签提取任务,并针对集成模型的局限性,进一步提出基于优化预训练语言模型的BL4W-BiLSTM-CRF集成模型,并在此模型基础上,设计与实现了海事新闻领域的标签提取系统,具体研究内容如下:首先,在BiLSTM-CRF模型基础上,构建基于预训练语言模型与双向长短时记忆网络的集成模型。通过引入BERT预训练模型进行海事新闻文本特征提取,得到富含文本语义信息的词向量矩阵,将得到的词向量表示输入到BiLSTM神经网络中,对于该层获取的序列化文本上下文抽象特征使用CRF进行约束,对全局最优序列进行解码和注释,从而提高海事新闻标签提取准确度。其次,针对预训练语言模型与双向长短时记忆网络的集成模型存在中文文本按字切分问题和预训练语言模型与双向长短时记忆网络的集成模型上下游不一致问题,进一步优化模型,通过观察BERT不同的掩码方式和对BERT不同隐藏层编码信息对标签提取结果的影响,提出了基于优化预训练语言模型的BL4W-BiLSTM-CRF集成模型,增强BERT对中文文本的语义表征能力,平衡上下游模型学习能力,并且使参数量庞大的BERT更好的应用于实际生产生活。最后,本文将提出的模型应用到实际,设计并实现了海事新闻标签提取系统。系统将自动提取出新闻的标签存储并分类,方便用户对新闻的检索与浏览。产品形态上,前端以Vue为主构建新闻系统,来模拟真实的新闻平台界面,后端产品服务以Node.js为主提供系统服务API。设计了包含用户登录系统、基于角色的访问控制(RBAC)权限管理系统、新闻管理模块、标签管理模块、标签提取模块、API网关模块,实现了消息平台基本的新闻录入、新闻标签提取、标签可视化、新闻标签检索的流程,满足了海事新闻管理工作的需求,同时将新闻标签和标题共同作为新闻正文的辅助信息,也满足了用户的使用需求,提升挖掘海事新闻商业价值的能力。
其他文献
学位
学位
学位
学位
人体解剖学是一门重要的基础医学课程,是护理专业的专业核心课程。如今社会对高职学生强调的是素质教育,要构建知识、能力、素质为一体的新型人才,这是对教育思想认识的深化。本文试从调整课程教学内容、更新教学手段、改进教学方法、培养学生能力、提高学习效率等方面,对人体解剖学的教学改革进行探讨。
期刊
学位
学位
学位
学位
学位