基于深度学习的中文信息处理

来源 :科学与财富 | 被引量 : 0次 | 上传用户:william__2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近几年来,随着科学技术的高速发展,人工智能这个词语出现在大家视线中的频率越来越高,其中最有代表性的技术便是深度学习。深度学习源于人工神经网络的研究,其目的是通过相关算法及函数,让机器可以“理解”人类的思想及意图,完成人类的要求,甚至具有人类的行为及思想。关于机器如何理解人类的思想,最关键的则是如何理解人类的语言,即如何将信息进行处理,如何将人类的语言转换成机器可以明白的语言。然而,中文作为联合国中的六种工作语言之一,对其进行处理已成为人工智能领域不可缺少的一部分。由于人工智能可以模拟人类智能解决问题,并可以大大减少不必要的人力,从而高效高质量的完成大量简单又枯燥的工作,为人们的常生活提供便利。
  关键词:深度学习;神经网络;中文分词
  引言
  自1950年Alan Turing提出图灵测试,为检测机器是否智能,就有越来越多的人进行尝试,随着人工智能技术的发展,人类与机器之间的沟通已经不再是一件困难的事情。
  深度学习是指使机器能模拟人类的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。深度学习已经在图像识别以及语言处理方面有了非常广泛的应用,比传统意义上的机器学习更进一步的地方,是其可以通过建立深层神经网络,模拟人类大脑对图像及语言处理方式,将图像或文本转换成相应的数据,尝试自动完成最有效数据的提取。简而言之,是是机器具备学习的能力。
  中文信息处理即是将中文文本处理成机器可以理解的数据,再通过相应模型或算法,进而可以完成机器翻译,自动文摘,文本分类等工作,为人类减少了一些重复性高、枯燥乏味性质的工作。利用深度学习技术,通过相应方法将文本转换成其建立的深层神经网络可以理解且可学习的数据,可以更准确高效地完成信息處理,为自然语言处理开启了新篇章。
  1 中文分词
  传统意义上的中文信息处理是将中文文本分解成子文本进行分析,即我们说的中文分词。
  首先对已知文本进行预处理,先将输入的文本进行分词处理,即将词语与词语之间以空格分割,继而进行每一个词语的词性标注,并且在文本中去除对工作没有太大意义的词语,保证了不浪费存储空间,提高了搜索的效率。
  中文分词是中文信息处理的必备条件,对处理的结果起着决定性的作用。中文没有像英文一样的空格作为分隔符,因此,常见的机械分词方法有:正向最大匹配算法,逆向最大匹配算法,邻近匹配算法,最短路径匹配算法,基于统计的最短路径分词算法。前三者都是将文本简化为一个字符串,继而对字符串进行搜索,找到目标词。最短路径匹配算法是根据词典构造词语切分有向无环图,找出最短路径,这条路径上包含的词就是切分结果。基于统计的最短路径分词算法则是将数学的统计方法与有向无环图相结合,提高了切分的精度。
  词性标注是是标注分好的词语词性的过程,此过程可以删掉一些对文本意义不大的词语,为接下来的过程做了充足的准备。分词系统通过建立语料库,在词性标注集中规定好各类词的词性,以及通过判断其在句子中的成分给予词语一定的词性。
  停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。但这种中文信息处理的方法不仅需要人力构建完备的语料库,而且对于大量的中文文本有一定的局限性,比如由于在不同语境中会出现的语义歧义;一些专有名词无法识别;文本的情感分析等等。
  2 深度学习
  站在生物学的角度上看,人脑本身就是一个深层次结构。然而这种层次结构十分明显地减少了感官直接带来的数据处理量,并且提取了有效的信息。这启发了神经网络的研究人员,只有这种层次结构才可以长久高效地处理中文信息。神经网络是一种并行且分布式处理的技术,它可以更好地效仿人类的学习过程,了解用户的意图,完成用户的需求。随着当今社会的高速发展,只有机器自己具备学习的能力,才可以应对日新月异的变化。
  2.1 机器翻译
  利用可以自动在语料库里学习翻译知识的深层神经网络,基于“编码器-解码器”框架,两端均利用递归神经网络,在编码器一端将句子向量化,即自动提取出可以表征该句子的词向量,然后在解码器一端生成对应语言的目标词。由于深层神经网络的层次结构特点,误差可在梯度更新中不断积累,进而产生了梯度爆炸。同理,若网络中的权重更新得越来越慢,直到不再更新,就会产生梯度消失。针对这两个问题,通过使用长短期记忆单元,设置可以调节控制内部信息流的门控开关,可以有效避免长期的依赖而产生的梯度问题。
  当然,机器翻译在句子长度,语境分析,情感分析等方面还有很多需要探讨的地方,但目前看来,深度学习已经使机器翻译更加合理化,更贴近人类的语言模式。
  2.2 自动文摘
  在媒体发展迅速的今天,每时每刻都有大量的信息产生,其中文本信息占绝大多数,自动文摘技术可以从中快速准确提取出文章的核心内容,提高了用户获取信息的效率。
  目前在深度学习领域,最常用的中文自动文摘方法是基于卷积神经网络,利用CNN模型,将自动文摘转化为一个匹配问题,将文本及文本中的句子进行多层次的卷积操作和最大池化后,提取并衔接二者的特征向量,以最顶层的神经网络层次输入,通过对匹配程度的高低进行排序,取匹配度最高的句子作为该文本的摘要。
  基于深度学习,可以使文摘获取的更加高效,精准度更高,方便了用户对感兴趣的信息的获取。
  2.3 文本分类
  在大规模的文本中提取有价值的信息,是目前文本挖掘研究的主要意义。文本分类是依据文本的内容,将同一类别的文本归类的过程。
  经研究得出,对于简单的单标签文本分类,利用基于词向量表示提高文本的区分度;对于专业性强的多标签文本分类,先利用CNN获取文本的局部特征,继而补充文本的全局特征,将两个特征结合起来,可以更好地提取高层文本;对于领域不明确的多标签文本分类,利用基于序列预测标签的文本分类模型,通过排序的方式来预测文本的标签可以更好地将文本分类。
  文本分类信息检索与挖掘的基础工作,对后续的文本信息处理工作起到关键作用,是必不可少的步骤,可见文本分类的重要性。
  3 结束语
  深度学习作为当前科技研究的热门方向,已经可以有效地运用到中文信息处理当中,虽然还有很多需要改进的地方,比如怎样将模型结合可以达到最佳的效果,怎样减少机器高度运算带来的误差等问题。通过对机器进行训练学习,将性能优化,使机器更加智能化,可以更有效地完成人类给出的任务。
  参考文献:
  [1]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(03):175-177+182.
  [2]杨南.基于神经网络学习的统计机器翻译研究[D].中国科学技术大学,2014.
  [3]喻丽.基于卷积神经网络的中文自动文摘方法[D].哈尔滨工业大学,2017.
  [4]周超.基于深度学习混合模型的文本分类研究[D].兰州大学,2016.
  作者简介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)专业本科生;
  苏晴(1990-),通讯作者,女,吉林省延吉市人,计算机应用技术专业,工学硕士,助教;
其他文献
摘要:我国当前国民经济的发展水平在不断提高,而广播电视工程施工的数量也在逐渐增加,但在实际施工的过程中,如果能够运用接地技术,不仅能够保证电子设备正常运行,还能够保证信息传播过程中的质量,从而保证能够进一步提高广播电视工程施工中的安全性。我国当前接地技术已经在广播电视工程施工中得到了广泛推广和应用,并且能够充分发挥其自身的作用和价值,但在实际运用的过程中,还是会存在一些较严重的问题,严重的情况下,
期刊
摘要:用电检查工作是为了保证用电安全务必要进行的一项工作,也是有效保障用户用电的安全的关键。我们日常使用的用电设备日益增多,对用电的稳定性和安全性也提出更高的要求,这就需要用电管理部门提高用电检查管理技术,保证用电的安全。通过用电检查管理技术的应用及用电检查管理技术与用电检查管理工作之间的关系进行分析,提出如何完善用电检查管理工作的对策。本文将结合实际情况对用电管理技术以及用电管理检查工作进行分析
期刊
摘要:文章主要以光纤通道技术的基本理论概述为切入点,重点阐述了航电系统中光纤通道技术应用的优势,目的就是为了促使光纤通道技术水平能够不断的提高。  关键词:光纤通道;航电系统;网络  引言:  在航电网络系统中,应用光纤通道技术,主要具有设计简单化能够消除多种层次的网络等优点。为此,为了航电系统趋于稳定性运行状态,文章主要对光纤通道技术在航电系统中的应用展开全面深入的剖析。  一、关于光纤通道技术
期刊
摘要:对发电机组汽水品质进行查定,可考查机组的运行工况、掌握汽水品质变化规律、核定汽水品质的控制指标。电厂加强并完善化学汽水品质查定工作,保障化学分析结果的准确性和可靠性。  关键词:汽水品质;查定;偏差;分析  通过对热力系统汽水品质进行查定,可考查发电机组的运行工况、掌握其汽水品质变化规律。根据汽水指标的分析试验结果,确定热力设备的水化学工况,判定系统是否存在热力设备结垢、腐蚀和蒸汽污染等问题
期刊
摘要:由于机电一体化设备系统较为复杂,制作工艺较为精密,设备中各个内部结构在运作、使用和修理的时候都有密切的关联性。所以,这就需要操控机电一体化设备的工作人员应有良好的工作素养,同时也需要设备维修工作人员必须具有科学性、可行性的操作与维修手段,严格遵守机电一体化设备相关的操作原理和维修技术理论知识,把控原则,有目的性和针对性地进行对机电一体化设备的操控和维修工作,基于此,本文的研究就是对机电一体化
期刊
摘要:本文对电站锅炉钢结构双腹大板梁制作技术进行探究。  关键词:钢结构;大板梁;制作  前言  超临界锅炉钢结构顶部汽包主要承重部件为双腹板大板梁结构,双腹板大板梁分为上下结构,上部分左中右三段,下部为一个整体,上下叠合面通过高强螺栓连接,连接面之间间隙控制在1mm之内,要求整体上绕,双腹大板梁尺寸大、重量重,钻孔数量多,焊接变形控制难度大。  1工程概况  某电站超临界锅炉钢结构主要承重大板梁
期刊
摘要:计算机信息系统提高了信息时代的高速运行, 同时还使得人们在信息的采集与处理,存储和传输以及检索等方面的工作能够更好地完成,其普及,使各行各业的发展都得到了更大的推动力,如今大部分的机关单位都是依靠计算机技术得以发展。据此,如何帮助计算机用户节约更多的时间,是计算机信息系统维护工作需要继续改善的问题,抓住时间的时效性,提高信息的使用价值,就体现在这里。本文将就如何提高计算机信息系统维护效率问题
期刊
摘要:随着科学技术的不断发展进步,小型无人机的发展越来越快,其应用也越来越广泛。航电系统在小型无人机能够实现无人自主飞行中发挥着至关重要的作用。本文主要通过介绍小型无人机航电系统的主要构成、机载传感器以及控制飞行的计算机的方案设计以及分析讨论了整个航电系统的可靠性等方面对小型无人机的航电系统的设计做出了研究和分析。  关键词:小型无人机;航电系统;相关设计;  小型无人机由于具备飞行灵活、体积小、
期刊
摘要:本文以一种手机盖为例,通过对其进行注塑模具设计,推荐一种有效的模具设计基本方法。  关键词:模具设计;成型零件;注射量;锁模力  模具设计总体步骤是分析产品零件图-进行必要计算—确定注射机--确定模具主要零件关键尺寸—模具结构设计-模具材料选择-绘制总图--绘制零件图  1 分析产品零件图  对产品零件图及技术要求进行分析,弄清楚产品性能、使用情况。本产品材料为ABS,具有无毒、硬、韧、刚特
期刊
摘要:对于高集成、轻小型化满足高性能使用需求的收发模块,其扩充灵活能够构建所需的多个通道阵列,得以大量生产投入应用。本文对收发模块生产过程中,遇到典型问题处理具有一定的指导和借鉴意义。  关键词:信号判别;电流诊断;阻值诊断  1.引言  现代雷达系统开发研制的相控阵雷达技术具有诸多的优点,备受各方的重视和关注,如可扩充性能良好、能够实现模块化频率捷变等,对于有源干扰具有较强的抵抗性能,其基本结构
期刊