论文部分内容阅读
摘要:近几年来,随着科学技术的高速发展,人工智能这个词语出现在大家视线中的频率越来越高,其中最有代表性的技术便是深度学习。深度学习源于人工神经网络的研究,其目的是通过相关算法及函数,让机器可以“理解”人类的思想及意图,完成人类的要求,甚至具有人类的行为及思想。关于机器如何理解人类的思想,最关键的则是如何理解人类的语言,即如何将信息进行处理,如何将人类的语言转换成机器可以明白的语言。然而,中文作为联合国中的六种工作语言之一,对其进行处理已成为人工智能领域不可缺少的一部分。由于人工智能可以模拟人类智能解决问题,并可以大大减少不必要的人力,从而高效高质量的完成大量简单又枯燥的工作,为人们的常生活提供便利。
关键词:深度学习;神经网络;中文分词
引言
自1950年Alan Turing提出图灵测试,为检测机器是否智能,就有越来越多的人进行尝试,随着人工智能技术的发展,人类与机器之间的沟通已经不再是一件困难的事情。
深度学习是指使机器能模拟人类的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。深度学习已经在图像识别以及语言处理方面有了非常广泛的应用,比传统意义上的机器学习更进一步的地方,是其可以通过建立深层神经网络,模拟人类大脑对图像及语言处理方式,将图像或文本转换成相应的数据,尝试自动完成最有效数据的提取。简而言之,是是机器具备学习的能力。
中文信息处理即是将中文文本处理成机器可以理解的数据,再通过相应模型或算法,进而可以完成机器翻译,自动文摘,文本分类等工作,为人类减少了一些重复性高、枯燥乏味性质的工作。利用深度学习技术,通过相应方法将文本转换成其建立的深层神经网络可以理解且可学习的数据,可以更准确高效地完成信息處理,为自然语言处理开启了新篇章。
1 中文分词
传统意义上的中文信息处理是将中文文本分解成子文本进行分析,即我们说的中文分词。
首先对已知文本进行预处理,先将输入的文本进行分词处理,即将词语与词语之间以空格分割,继而进行每一个词语的词性标注,并且在文本中去除对工作没有太大意义的词语,保证了不浪费存储空间,提高了搜索的效率。
中文分词是中文信息处理的必备条件,对处理的结果起着决定性的作用。中文没有像英文一样的空格作为分隔符,因此,常见的机械分词方法有:正向最大匹配算法,逆向最大匹配算法,邻近匹配算法,最短路径匹配算法,基于统计的最短路径分词算法。前三者都是将文本简化为一个字符串,继而对字符串进行搜索,找到目标词。最短路径匹配算法是根据词典构造词语切分有向无环图,找出最短路径,这条路径上包含的词就是切分结果。基于统计的最短路径分词算法则是将数学的统计方法与有向无环图相结合,提高了切分的精度。
词性标注是是标注分好的词语词性的过程,此过程可以删掉一些对文本意义不大的词语,为接下来的过程做了充足的准备。分词系统通过建立语料库,在词性标注集中规定好各类词的词性,以及通过判断其在句子中的成分给予词语一定的词性。
停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。但这种中文信息处理的方法不仅需要人力构建完备的语料库,而且对于大量的中文文本有一定的局限性,比如由于在不同语境中会出现的语义歧义;一些专有名词无法识别;文本的情感分析等等。
2 深度学习
站在生物学的角度上看,人脑本身就是一个深层次结构。然而这种层次结构十分明显地减少了感官直接带来的数据处理量,并且提取了有效的信息。这启发了神经网络的研究人员,只有这种层次结构才可以长久高效地处理中文信息。神经网络是一种并行且分布式处理的技术,它可以更好地效仿人类的学习过程,了解用户的意图,完成用户的需求。随着当今社会的高速发展,只有机器自己具备学习的能力,才可以应对日新月异的变化。
2.1 机器翻译
利用可以自动在语料库里学习翻译知识的深层神经网络,基于“编码器-解码器”框架,两端均利用递归神经网络,在编码器一端将句子向量化,即自动提取出可以表征该句子的词向量,然后在解码器一端生成对应语言的目标词。由于深层神经网络的层次结构特点,误差可在梯度更新中不断积累,进而产生了梯度爆炸。同理,若网络中的权重更新得越来越慢,直到不再更新,就会产生梯度消失。针对这两个问题,通过使用长短期记忆单元,设置可以调节控制内部信息流的门控开关,可以有效避免长期的依赖而产生的梯度问题。
当然,机器翻译在句子长度,语境分析,情感分析等方面还有很多需要探讨的地方,但目前看来,深度学习已经使机器翻译更加合理化,更贴近人类的语言模式。
2.2 自动文摘
在媒体发展迅速的今天,每时每刻都有大量的信息产生,其中文本信息占绝大多数,自动文摘技术可以从中快速准确提取出文章的核心内容,提高了用户获取信息的效率。
目前在深度学习领域,最常用的中文自动文摘方法是基于卷积神经网络,利用CNN模型,将自动文摘转化为一个匹配问题,将文本及文本中的句子进行多层次的卷积操作和最大池化后,提取并衔接二者的特征向量,以最顶层的神经网络层次输入,通过对匹配程度的高低进行排序,取匹配度最高的句子作为该文本的摘要。
基于深度学习,可以使文摘获取的更加高效,精准度更高,方便了用户对感兴趣的信息的获取。
2.3 文本分类
在大规模的文本中提取有价值的信息,是目前文本挖掘研究的主要意义。文本分类是依据文本的内容,将同一类别的文本归类的过程。
经研究得出,对于简单的单标签文本分类,利用基于词向量表示提高文本的区分度;对于专业性强的多标签文本分类,先利用CNN获取文本的局部特征,继而补充文本的全局特征,将两个特征结合起来,可以更好地提取高层文本;对于领域不明确的多标签文本分类,利用基于序列预测标签的文本分类模型,通过排序的方式来预测文本的标签可以更好地将文本分类。
文本分类信息检索与挖掘的基础工作,对后续的文本信息处理工作起到关键作用,是必不可少的步骤,可见文本分类的重要性。
3 结束语
深度学习作为当前科技研究的热门方向,已经可以有效地运用到中文信息处理当中,虽然还有很多需要改进的地方,比如怎样将模型结合可以达到最佳的效果,怎样减少机器高度运算带来的误差等问题。通过对机器进行训练学习,将性能优化,使机器更加智能化,可以更有效地完成人类给出的任务。
参考文献:
[1]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(03):175-177+182.
[2]杨南.基于神经网络学习的统计机器翻译研究[D].中国科学技术大学,2014.
[3]喻丽.基于卷积神经网络的中文自动文摘方法[D].哈尔滨工业大学,2017.
[4]周超.基于深度学习混合模型的文本分类研究[D].兰州大学,2016.
作者简介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)专业本科生;
苏晴(1990-),通讯作者,女,吉林省延吉市人,计算机应用技术专业,工学硕士,助教;
关键词:深度学习;神经网络;中文分词
引言
自1950年Alan Turing提出图灵测试,为检测机器是否智能,就有越来越多的人进行尝试,随着人工智能技术的发展,人类与机器之间的沟通已经不再是一件困难的事情。
深度学习是指使机器能模拟人类的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。深度学习已经在图像识别以及语言处理方面有了非常广泛的应用,比传统意义上的机器学习更进一步的地方,是其可以通过建立深层神经网络,模拟人类大脑对图像及语言处理方式,将图像或文本转换成相应的数据,尝试自动完成最有效数据的提取。简而言之,是是机器具备学习的能力。
中文信息处理即是将中文文本处理成机器可以理解的数据,再通过相应模型或算法,进而可以完成机器翻译,自动文摘,文本分类等工作,为人类减少了一些重复性高、枯燥乏味性质的工作。利用深度学习技术,通过相应方法将文本转换成其建立的深层神经网络可以理解且可学习的数据,可以更准确高效地完成信息處理,为自然语言处理开启了新篇章。
1 中文分词
传统意义上的中文信息处理是将中文文本分解成子文本进行分析,即我们说的中文分词。
首先对已知文本进行预处理,先将输入的文本进行分词处理,即将词语与词语之间以空格分割,继而进行每一个词语的词性标注,并且在文本中去除对工作没有太大意义的词语,保证了不浪费存储空间,提高了搜索的效率。
中文分词是中文信息处理的必备条件,对处理的结果起着决定性的作用。中文没有像英文一样的空格作为分隔符,因此,常见的机械分词方法有:正向最大匹配算法,逆向最大匹配算法,邻近匹配算法,最短路径匹配算法,基于统计的最短路径分词算法。前三者都是将文本简化为一个字符串,继而对字符串进行搜索,找到目标词。最短路径匹配算法是根据词典构造词语切分有向无环图,找出最短路径,这条路径上包含的词就是切分结果。基于统计的最短路径分词算法则是将数学的统计方法与有向无环图相结合,提高了切分的精度。
词性标注是是标注分好的词语词性的过程,此过程可以删掉一些对文本意义不大的词语,为接下来的过程做了充足的准备。分词系统通过建立语料库,在词性标注集中规定好各类词的词性,以及通过判断其在句子中的成分给予词语一定的词性。
停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。但这种中文信息处理的方法不仅需要人力构建完备的语料库,而且对于大量的中文文本有一定的局限性,比如由于在不同语境中会出现的语义歧义;一些专有名词无法识别;文本的情感分析等等。
2 深度学习
站在生物学的角度上看,人脑本身就是一个深层次结构。然而这种层次结构十分明显地减少了感官直接带来的数据处理量,并且提取了有效的信息。这启发了神经网络的研究人员,只有这种层次结构才可以长久高效地处理中文信息。神经网络是一种并行且分布式处理的技术,它可以更好地效仿人类的学习过程,了解用户的意图,完成用户的需求。随着当今社会的高速发展,只有机器自己具备学习的能力,才可以应对日新月异的变化。
2.1 机器翻译
利用可以自动在语料库里学习翻译知识的深层神经网络,基于“编码器-解码器”框架,两端均利用递归神经网络,在编码器一端将句子向量化,即自动提取出可以表征该句子的词向量,然后在解码器一端生成对应语言的目标词。由于深层神经网络的层次结构特点,误差可在梯度更新中不断积累,进而产生了梯度爆炸。同理,若网络中的权重更新得越来越慢,直到不再更新,就会产生梯度消失。针对这两个问题,通过使用长短期记忆单元,设置可以调节控制内部信息流的门控开关,可以有效避免长期的依赖而产生的梯度问题。
当然,机器翻译在句子长度,语境分析,情感分析等方面还有很多需要探讨的地方,但目前看来,深度学习已经使机器翻译更加合理化,更贴近人类的语言模式。
2.2 自动文摘
在媒体发展迅速的今天,每时每刻都有大量的信息产生,其中文本信息占绝大多数,自动文摘技术可以从中快速准确提取出文章的核心内容,提高了用户获取信息的效率。
目前在深度学习领域,最常用的中文自动文摘方法是基于卷积神经网络,利用CNN模型,将自动文摘转化为一个匹配问题,将文本及文本中的句子进行多层次的卷积操作和最大池化后,提取并衔接二者的特征向量,以最顶层的神经网络层次输入,通过对匹配程度的高低进行排序,取匹配度最高的句子作为该文本的摘要。
基于深度学习,可以使文摘获取的更加高效,精准度更高,方便了用户对感兴趣的信息的获取。
2.3 文本分类
在大规模的文本中提取有价值的信息,是目前文本挖掘研究的主要意义。文本分类是依据文本的内容,将同一类别的文本归类的过程。
经研究得出,对于简单的单标签文本分类,利用基于词向量表示提高文本的区分度;对于专业性强的多标签文本分类,先利用CNN获取文本的局部特征,继而补充文本的全局特征,将两个特征结合起来,可以更好地提取高层文本;对于领域不明确的多标签文本分类,利用基于序列预测标签的文本分类模型,通过排序的方式来预测文本的标签可以更好地将文本分类。
文本分类信息检索与挖掘的基础工作,对后续的文本信息处理工作起到关键作用,是必不可少的步骤,可见文本分类的重要性。
3 结束语
深度学习作为当前科技研究的热门方向,已经可以有效地运用到中文信息处理当中,虽然还有很多需要改进的地方,比如怎样将模型结合可以达到最佳的效果,怎样减少机器高度运算带来的误差等问题。通过对机器进行训练学习,将性能优化,使机器更加智能化,可以更有效地完成人类给出的任务。
参考文献:
[1]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(03):175-177+182.
[2]杨南.基于神经网络学习的统计机器翻译研究[D].中国科学技术大学,2014.
[3]喻丽.基于卷积神经网络的中文自动文摘方法[D].哈尔滨工业大学,2017.
[4]周超.基于深度学习混合模型的文本分类研究[D].兰州大学,2016.
作者简介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)专业本科生;
苏晴(1990-),通讯作者,女,吉林省延吉市人,计算机应用技术专业,工学硕士,助教;