基于深度学习的中文专利文本分类研究和设计

来源 :青岛科技大学 | 被引量 : 2次 | 上传用户:xing123qw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会发展,专利的申请数量越来越多,专利文献中含有大量的发明创造技术信息,使用专利文献中的科学技术,可以很大程度的降低研发成本和开发周期,所以如何从专利中获取丰富的科学技术信息成为人们关心的重点。目前,人们多采用半自动分类的方式,来辅助专利分类人员的专利分类工作,虽然在一定程度上减少了分类人员的工作量,但是这种方式仍存在一定的不足。随着深度学习在自然语言处理领域的深入发展,为专利文本自动分类提供了技术支撑。本文利用深度学习方法,通过模型设计,实现了一种比较高效的文本分类方法,主要工作如下:一是设计网络爬虫策略,使用python编程语言获取中文专利文本数据,构建分类模型的训练集和测试集,为中文专利文本分类提供数据支撑;二是在文本预处理时,采用结巴分词系统,另外加入自行建立的领域用户词典进行分词,在分词后使用自定义的停用词典,去除一些对分类任务不重要的词;三是阐述了卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆神经网络(Long Short-Term Memory,LSTM)原理知识,在构建中文专利文本分类算法时,结合CNN提取局部特征和Bi LSTM序列化提取全局特征的优势,在BiLSTM隐藏层引入注意力机制(Attention机制),提出了BiLSTM_ATT_CNN组合模型,该组合模型能够更好的完成专利文本分类任务。通过设计多组对比实验,验证了BiLSTM_ATT_CNN组合模型比其他四种模型的分类效果较优;四是为了能够实现中文专利文本自动分类,设计了中文专利文本分类系统,对该系统的需求和目的进行分析,设计了系统的功能架构和技术架构,并详细设计了中文专利文本数据采集、文本预处理、文本表示和专利分类等模块,通过测试,验证了该系统能够实现基本的中文专利文本自动分类功能。
其他文献
目的分析抗病毒治疗对单阳家庭夫妻间性传播艾滋病毒(HIV)的影响。方法对2009年6月至2012年6月布拖县466个艾滋病单阳家庭(治疗组152个,未治疗的对照组314个)夫妻间HIV的性传
利用VMC750E加工中心,在确定刀具的情况下,对几种有色金属在不同切削参数下进行加工,达到比较高的切除率,以提高切削效率,并建立切削参数数据库,把该数据库用于生产和实践教
翻转课堂是一种创新的教学形式,对课堂时间与课堂规划进行了重新的调整,并且改变了以往教学中以教师为主体的教学,在初中英语教学中应用翻转课堂,可以极大地调动学生学习的积
人参锈腐病(Ginseng rust rot)是人参主要土传病害之一,国内外人参产区均有发生,严重影响人参的产量与品质。为系统了解该病害,本文从人参锈腐病的病原、发病特点及其病害防治
目的:探讨BRAF V600E和TERT启动子共突变与甲状腺乳头状癌临床病理特征及预后的关系。方法:运用计算机检索工具,以“BRAF和TERT基因共突变”、“甲状腺乳头状癌”及其同义词
介绍了变频器的工作原理、节能原理、使用场合,以及使用中应注意的问题,比较了变频器与软启动器的使用。
目的粒细胞巨噬细胞集落刺激因子(granulocyte macrophage colony stimulating factor,GM-CSF)是一种造血细胞增殖和分化刺激因子。越来越多的研究发现,肿瘤细胞能够自分泌GM-CSF,对肿瘤细胞的增殖力、侵袭力和耐药性会产生影响。但是,关于GM-CSF对胃癌进展和耐药方面的研究目前还比较少,更多深层次的相关机制研究也并不清楚。本实验通过检测GM-CSF
目的:初步评价氨酚双氢可待因片在健康志愿者体内的生物等效性。方法:采用随机交叉对照设计,10名健康受试者分别于空腹条件下单剂量口服氨酚双氢可待因片之受试制剂与参比制
以Koch反应合成三甲基乙酸。实验工艺中三甲基乙酸的收率(以异丁烯计)高达76.11%(平均值为73.17%),纯度高,实验重复性良好。小试确立了适宜的Koch反应合成条件:反应温度为30
目的探讨不同体外培养方法对小鼠去透明带胚胎发育的影响。方法以胚胎各阶段发育率、囊胚率和囊胚细胞数作为衡量指标,对比微滴单卵法、微滴群卵法、微滴单卵+群卵法、m WOW培