【摘 要】
:
随着微博类自媒体的兴起,针对微博的研究开始受到关注,如何利用微博文本获取有价值的信息,这是大多数研究者的兴趣所在。传统文本的自然语言处理已处于一个很成熟的阶段,但基
论文部分内容阅读
随着微博类自媒体的兴起,针对微博的研究开始受到关注,如何利用微博文本获取有价值的信息,这是大多数研究者的兴趣所在。传统文本的自然语言处理已处于一个很成熟的阶段,但基于微博文本的自然语言处理工作才刚刚起步。本文面向中文微博文本的命名实体识别展开研究。本文首先使用传统的机器学习方法如隐马尔可夫和条件随机场,然而实验效果较差,不能完全照搬。在总结了传统机器学习方法在微博文本的局限性基础上,提出了深度学习的方法来完成命名实体识别工作,主要包括以下几个方面:第一,提出一个微博文本规范化模型。根据微博文本与传统文本的差异性,本文构建相关的系统进行文本的规范化处理,为进一步的识别工作做准备。第二,提出一个卷积上下文窗口模型应用于全新的微博文本领域。考虑到机器学习的局限性,以及在微博文本中人工选取特征的困难程度。首先,本文将以往主要用于图像处理的卷积神经网络应用于微博文本数据;其次,进一步改进了传统卷积神经网络结构,加入了更加有效的RELU激励函数,防止过拟合的Dropout操作,有效构建了一个泛化性能较好的模型。与传统的机器学习方法相比较,卷积上下文窗口模型在微博文本方面有了较好的表现。第三,提出一个混合模型应用于中文微博文本的命名实体识别研究方面。结合递归神经网络和卷积神经网络的特点,对之前提出的卷积上下文窗口模型进一步优化,在抽取词的上文特征方面,利用递归神经网络的优势,在特征的筛选方面利用卷积神经网络的优势,模型的实验结果证明本文的混合模型具有较大优势。
其他文献
本文着重分析了新形势下国际科技人力资源统计研究的发展趋势、我国科技人力资源统计状况及存在问题,并在此基础上提出完善科技人力资源统计的思考与建议。
随着内部控制在公立医院管理方面的层层深入,从内控角度提高固定资产管理效率也成为公立医院思考的方向。本文阐述了公立医院固定资产管理现状,分析其产生的原因,并结合内部
科学主义和人文精神,在人本关怀和自由理性这一基点上是具有内在一致性的。语文教师的人文精神,就是在人文文化与科技文化、批判精神与生命关怀、逻辑思辨与审美想象三个方面谋
目的探讨小儿先天性隐睾合并病变的诊断与治疗方法。方法回顾分析我院儿外科2006年至今收治的3例先天性隐睾合并病变的临床资料。结果 3例均为腹腔内隐睾,无一例术前发现病变
科技软实力是国家以柔性方式运用全部科技资源维护国家利益、实现国家经济社会可持续发展的能力。在当代科技与经济一体化的背景下,科技软实力的发展是推动经济社会发展的强
This paper approaches the differences between the point random and trajectory random, and explains the relation with them, and author assorts to take the person
概览西方市民社会理论的历史演变,政治国家与市民社会的关系问题是贯穿始终的一条主线,正是基于对这一问题的不同回答,西方市民社会理论可划分为古典主义的、近代自由主义的
一、引言数据挖掘的重要任务之一就是发现大型数据中的积聚现象(clustering phenomena),并加以定量化描述.由于其处理的数据对象的特点,从分析思路和方法设计上都要充分地考
我国自改革开放以来,国家财政对经济社会的发展做出了突出的贡献.然而,在改革过程中,财政支出存在的一些问题也凸现出来.特别是与发达国家相比,我国财政支出结构不尽合理,公