基于深度学习的文本质量分析算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ys331223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机网络迅速发展的当下,作为互联网用户的我们,被淹没在海量的信息之中。文本信息是我们在网络中触接的最多信息之一。文本数据的信息质量严重的影响着用户获取信息的速度和进行决策的方向。仅仅依靠人力对互联网上海量的文本数据进行分析是不现实的,鲜有组织能够承受如此巨大的人力资源损耗。因此,使用相应的算法对文本的质量进行自动分析是具有非常的意义。与此同时,深度学习飞速发展,大量自然语言处理任务的深度学习解决方案都取得很好的效果。基于上述考虑,本论文进行了对文本质量分析任务的研究,并选择使用深度学习的方法对该任务进行解决。本论文设计了两个方案从不同角度对该任务进行解决。首先,本论文将文本质量分析视为文本在质量属性上的分类问题。本论文提出使用面向类别改进词向量和胶囊记忆网络对文本进行质量属性上的分类。面向类别的改进词向量模型能够有效的结合了文本语料集的类别信息,通过该方法训练得到的词嵌入不仅能够蕴涵浅层语义信息,而且能够引入对最终分类有用的文本类别信息。根据文本质量任务的相关特点,比如文本长度较长、特征模糊等。本论文设计的胶囊记忆网络进行文本的分类。该网络以记忆网络为框架,重新设计并构建了外部记忆模块、输入模块、特征提取模块、特征保存模块和输出模块。外部记忆模块的引入以及输入模块的处理让网络能够处理更长的文本信息,特征提取模块的胶囊网络设计能够使用向量更加细致的抽取特征。网络的多轮计算处理过程能够进一步强化模型的特征提取能力。然后,本论文提出对文本进行篇章句间关系分析,从文本语句逻辑上的起承转合对文本的质量进行判断。在该篇章句间关系分析任务中,本论文主要关注的是更加难以解决的隐式句间关系分析任务,设计了融合词嵌入和基于多任务学习的双向长短时记忆网络对该任务进行解决。融合词向量有效的引入了其他基于统计的先验知识,增强了词嵌入所蕴涵的信息量。然后,根据隐式句间关系识别和显式句间关系识别任务之间的关系设计了多任务学习的双向长短时记忆网络,通过多任务学习机制引入显式句间关系的语料增强了模型的特征提取能力,有效的提升模型的整体性能。最终,在多个语料的实验上对本论文所设计的方案进行实验验证,并与其他方法进行对比。结果证明本论文设计的方法比其他方法在性能上具有一定的优势。
其他文献
在化学考试中,推断题是最常见的类型之一,它既可检查学生对物质的性质、特征、反应现象掌握的怎样,又可检查学生的综合逻辑推理能力,具有考查知识面广,综合性强,题型多变,思
为了响应当代教育改革的要求,高职人才培养应逐以实用型、应用型为教育目标,努力向社会输出现代化技能型人才。高职英语教学必须顺应这一潮流,逐步提高学生的英语实际应用能
本文在当今语境下,剖析了环境、空间、场所的概念,分析了三者之间的关系,并提出了对环境设计的指导意义,希望能够丰富环境空间设计理论的研究。
目的探讨早期康复护理干预对脑梗塞偏瘫患者肢体运动功能的影响。方法将脑梗塞致偏瘫患者76例,随机分为两组各38例,两组均给予神经内科常规治疗,对照组按常规护理程序进行护
目的探讨高血压患者合并颈动脉粥样板块使用拉西地平联合阿托伐他汀的干预作用。方法选取70例合并颈动脉斑块的高血压患者随机分为治疗组和对照组,采用彩色多普勒超声检查颈
目的探讨脑卒中并发肺部感染的相关因素及护理措施。方法对2006年1月至2008年12月住院的380例脑卒中患者进行调查,分析脑卒中患者并发肺部感染的相关因素,提出护理对策。结果
到目前为止,对3岁前婴幼儿的研究成果,主要是神经生理学(脑科学)的发现,以及心理学的实验,至于教养方面的研究,更多的还只是停留在育儿经验的描述、理想的思考和口号的表述上
目的:通过观察丹酚酸B对活化的系膜细胞转化生长因子β1(TGF-β1)受体和Sma与Mad的同源基因2(Smad2)分子表达的影响,探讨丹酚酸B拮抗系膜细胞活化及肾纤维化的机制。方法:分离纯化
“垃圾下乡”在城镇化过程中是一个先结构的选择。通过政府间的共谋,将农村土地变成了城市居民处理生活垃圾的公地。这种行为侵占了农村土地,损害了土地的耕种环境。在此过程中
目的探讨CT多平面重建技术(multi-planar reformation,MPR)在长期气管切开患者气道评估中的应用价值。方法选择2017年7月至2019年6月因长期气管切开接受CT检查的患者46例,根