论文部分内容阅读
摘要:自然语言处理中的一个重要内容是机器翻译,为了满足人们日常生活与工作中的各种语言需求,自然语言处理技术经过发展与不断的改进,最后与机器语言相融合,在此基础上对处理其他自然语言任务也发挥着重要的作用。本文首先阐述了自然处理的基本理念,随后通过相关的案例说明如何运用自然语言处理在机器翻译中发挥作用。做出对机器翻译发展的预判,使得人们能够更加深刻的理解自然语言与机器翻译之间的联系,为日后相关研究奠定基础。
关键字:自然语言处理;机器翻译;运用 中图分类号:TU 文献标识码:A 文章编号:(2021)-06-121
前言:自然语言作为一门较为冷门的学科,基于语言学、计算机、数学的发展而来,目前该学科与机器翻译之间有着深刻的联系,成为人工智能中需要迫切解决的重要问题之一,同时自然语言的发展奠定了基础,两者之间的关系变得更加紧密。随着社会时代的发展,机器翻译的需求日益增大,在人工智能的发展壮大过程中,机器翻译理论成为未来发展的重要方向。
一、自然语言处理概要
自然语言处理的概念
自然语言处理又称作为计算语言学,主要是以计算为基础对自然语言进行处理的学科。自然语言处理可以简单理解成通过研究人类间的语言交流来发展到人与计算机交流中,通过对自然语言的处理,建立常见的语言模型。结合日常人与人的交流特征对语言框架不断进行优化,同时在语言模型的基础上,建立起完整的测评技术。
自然语言处理的过程
研究人员首先要总结人与人交流的语言习惯,将语言习惯转变成语言搜集的问题。其次针对每一个语言问题,设计完整且系统的算法,然后根据算法来建立自然语言处理的模型。这种模型的建立需要不断的测试与优化,在处理过程中,应当深刻认识到自然语言处理涉猎的范围非常广泛,包括心理学、计算机、统计学等多种学科。把握自然语言处理的过程,能够更好的理解自然语言如何运用在机器翻译中。
自然语言处理的主要内容
自然语言处理包括的内容广泛,如对内容进行细化,则可以将自然语言处理分为:语言、词汇、语义等几个重要方面。随着计算机语言的快速发展,为自然语言处理提供了丰富的基础,其中包括理论基础,语言资源以及技术经验。当前计算机行业已将语音识别运用于日常服务中,例如在乘坐飞机或者在电话联系物流客服时,计算机能够识别人类语言,然后根据已经建立的语言库,对于常见问题进行机器式的回复。实现了智能的语言处理功能。目前如何完成计算机翻译问题,是研究自然语言处理最大的问题。
二、自然语言处理的研究方式
自然语言处理的研究方法
自然语言处理的重要基础之一是提供强大的数据支持,由于自然语言处理的主要方式基于对数据库进行大量的统计,形成对文本处理的进一步拆分和理解,数据库的不断扩大依托于NLP应用的不断发展。自然语言处理流程主要包括五个关键性步骤,其一是获取相关的预料、其二是对已经获取的物料进行预处理,包括对结构的拆分与词汇的分析、其三是对物料进行量化与特征化,使得物料其中的规律能够被自然语言处理系统识别、其四是数据模型的反复验证,其中包括人工监督,半人工监督和无人工监督的学习模型,通过大量的数据练习,来纠正自然语言处理过程中存在的一些问题、其五是对完善的数据模型效果进行评价,常用的评价标准主要包括:准确率、召回率等。
2.自然语言处理基础研究之词法分析
词法分析的关键是对词性的识别和词义的解释,主要流程是先对物料进行分词、其次对物料中词的词性进行确认,最后识别词的含义。词性作为词汇最重要的语法属性,必须要根据具体的语境,能够消除词汇的歧义。其主要依托于分词的准确性,在对特殊的词汇例如人名、专有词汇的标注。自然语言处理的词法分析是通过已掌握的规则,基于庞大的数据不断进行统计与学习的方式,来完善自然语言处理能力。
3.自然语言处理基础研究之句法分析
句法分析的主要目的是为了确定句子中每个词汇之间的规律,研究句子的句法结构,能够真正技术上实现对句子结构关系的分析,对于具体的句法分析包括了完全句法分析和局部句法分析。完全的句法分析是根据现有数据模型中的分析方式来对句法进行解析,而局部分析仅需要对简单的词法进行分析。
4.自然语言处理基础研究之语义分析
语义的分析基于不同的语言单位,在语义处理中,必须先对此进行词义消除歧义,以及对特殊意义的词汇进行标注。语义分析作为NLP发展的重要方向,还在不断的研究与完善中发展。
5.自然语言处理基础研究之语用分析
语用分析需要将文本中的文字描述与实际真实含义相对应,形成表意结果。发话者、受话者、话语内容与语境是语法分析的重要因素,发话者与受话者主要是指句子的发出者与接收者,而话语内容是指发话者的具体表达的结构,语境代表着话语内容传递过程中所处的环境。
三、机器语言及自然语言处理的发展策略
结合机器语言发展的历程,我们可以感受到方法论与模型构建的核心技术是机器翻译取得进步的动力来源,而其中提高进步的“物质基础”主要是特殊的大数据,即双语语料库。在机器翻译取得瞩目成果的同时不难发现其依旧存在较大的局限性,主要体现在由于经济市场互联网公司的高速发展,其科研水平也具有较高的水平,使得高校的研究内容竞争力下降的情况。主要是由于以下问题:其一基于通用的计算装置的内容,在通常情况下,神经机器翻译模型在带有attention机制的循环神经网络中运行。通俗来说,机器翻译中的源语言内容构成了序列对,而这个模型也是集中研究序列对。其次神经机器翻译模型的性能在一定程度上取决于双语语料库的大小,高校受限于工程的能力与条件,其获得数据库的能力将会逊色于互联网公司。最后设计并训练神经机器翻译模型需要以高强度的计算能力为基础,进行不断的摸索与实验,才能真正得出相關的数据,而高效的计算能力有效且相关实验手段与环境较差,相关烈度试验在实施过程中难度较大。由此可以得出相关结论,高校对于神经机器机器翻译的研究在各种基础条件的限定下,其研究成果难以超过大型的互联网公司,其次互联网公司在人才方面也将比高校更具有优势,由于其较高的薪水与足够的研发费用,使得高校在大数据模型的计算能力与分析能力上处于劣势。国家应当就目前的状况,对相关高校研究单位加大投入,才能使得机器翻译能够在未来的发展历程中更加顺利。国家需要从以下几个方面入手,主要包括:其一是建立起国家级别的大规模学习计算平台,通过规模庞大的计算平台,能够真正解决计算能力的局限。其二是建设国家级别的高水平丰富资料的双语语料库,语料库也是开展机器翻译研究的重要内容之一。其三应当加强对于创新技术的鼓励,设立相关奖项,鼓励相关研究人员发挥主观能动性更加积极的投入到机器翻译研究过程中。最后应当对特点条件下的神经机器翻译模型进行改进设计,在面临新的词汇情况下,机器翻译无法识别这些内容,而数据库已有的数据模型无法对新型的词汇进行识别,因而在研究设计过程中应当加强对机器翻译模型的不断更新,使其跟上时代快速发展的步伐才能做到真正为人类所用。但不断对机器翻译模型进行创新也是对于研究人员来说面临着巨大的挑战。 四、自然语言处理在机器翻译中的实际运用
1.机器学习
通过机器来学习获取额外的语言知识是自然语言处理的一个重要特征。机器学习为研究计算提供的方式,简单的阐述即是:通过计算机采集的大数据中得到模型的算法,然后让系统学习算法,最后将新的数据传递给计算机,在计算机中出现新的数据时,计算机可以根据现有的模型作出判断,为人类节约了时间。总而言之,机器学习是为了提高效率,从而减少对大量数据的计算,最后基于大量数据的情况下建立模型,能够科学为人类生活提供便利,并且在人类不断使用与反馈中对模型不断调整不断完善,使得自然语言处理更加强大。
2.机器翻译
机器翻译是指在无人工的帮助下,将一种自然语言转化成另一种自然语言。机器翻译是自然语言处理研究课题中最主要的部分,其中的主要过程包括:数据的发掘、词与字的分割、句法理解与分析等,机器翻译是一项正在发展过程中的庞大工程。其中基于目前的翻译方法可以将机器翻译分为两类:基于规则的机器翻译方法和基于语言资料库的机器翻译方法。在机器翻译中,在数据库的基础上进行翻译的话,需要庞大的数据训练库来构建训练模型。此外不同的数据类型将被优化整合到对应的数据模型,语言模型真正建立后,将会提高翻译的质量。
3.机器翻译与人工翻译的结合
机器翻译作为人工翻译的进阶版,能够协助人工翻译减少相关工作人员的工作量,且在日常生活中提供便利。但机器翻译在某些方面有待完善,需要人工翻译才能真正理解待翻译内容的含义。当前情况下,应当将机器翻译与人工翻译相结合,并且对两者做出不同的分工,将会大大体会到机器翻译带来的便利程度。在未来计算机技术的发展过程中,翻译智能水平将会得到质的飞越。但是目前情况下人工智能远不能独立服务于人类,需要与人工翻译结合才能发挥出最佳效益。
五、自然语言处理应用与机器翻译的研究趋势
在目前来看,无论使用人工翻译还是机器翻译,翻译的水准与翻译者的目标差距较大,例如日常使用的谷歌翻译、百度翻译、金山词霸等软件。由于中英文语法差异较大,但软件翻译更多侧重于对词的翻译,很难体现出对句子用法的翻译,导致翻译出的句子,语言结构混乱。促进语言翻译优化的主要目标是不断进行自然语言处理,随着时代的不断发展,算法的不断变革,数据规模将会越来越大,数据模型也将会更加完善。由于数据规模的不断扩大,自然语言处理将会减少在数据挖掘方面的工作。而是更多依赖机器进行筛选。这些数据的采集并不能被即刻使用且做出进一步的研究结果,但未来的研究提供了更多的可能性。其次算法将会跟随时代的发展潮流不断革新,深度学习的方法也将运用到自然语言处理的發展中,最终产生更加完善与系统的机器翻译方式,为翻译结果的准确性提供保障。最后计算机的研究将更深层次的与机器翻译技术结合,使得翻译的质量与速度得到进一步发展。最终为消费市场所使用,使得人们的日常生活更加便利。
结束语:自然语言处理在计算机的快速发展中,与机器翻译相联系,在此领域中不断得到新的突破,并且为其创新提供了方向。自然语言处理在机器翻译中的创新运用,简单介绍了自然语言处理的概念与特点。结合现代化的发展历程,在未来计算机更加成熟的发展过程中,将会根据人类的特定需求,不断完善其中的算法与模型,使其能够更加智能化的服务于人类的生活与工作。
参考文献
[1]陆正扬.基于计算机自然语言处理的机器翻译技术应用与简介[J].科技传播,2019,11(22):140-141.
[2]葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019,18(17):113-114.
[3]赵园丁.浅谈人工智能时代背景下自然语言处理技术的发展应用[J].办公自动化,2019,24(10):63-64.
基金:江西省社会科学基金项目(基于语句数字表达式的机器翻译研究,编号:18YY07)
江西财经大学 江西南昌 330013
关键字:自然语言处理;机器翻译;运用 中图分类号:TU 文献标识码:A 文章编号:(2021)-06-121
前言:自然语言作为一门较为冷门的学科,基于语言学、计算机、数学的发展而来,目前该学科与机器翻译之间有着深刻的联系,成为人工智能中需要迫切解决的重要问题之一,同时自然语言的发展奠定了基础,两者之间的关系变得更加紧密。随着社会时代的发展,机器翻译的需求日益增大,在人工智能的发展壮大过程中,机器翻译理论成为未来发展的重要方向。
一、自然语言处理概要
自然语言处理的概念
自然语言处理又称作为计算语言学,主要是以计算为基础对自然语言进行处理的学科。自然语言处理可以简单理解成通过研究人类间的语言交流来发展到人与计算机交流中,通过对自然语言的处理,建立常见的语言模型。结合日常人与人的交流特征对语言框架不断进行优化,同时在语言模型的基础上,建立起完整的测评技术。
自然语言处理的过程
研究人员首先要总结人与人交流的语言习惯,将语言习惯转变成语言搜集的问题。其次针对每一个语言问题,设计完整且系统的算法,然后根据算法来建立自然语言处理的模型。这种模型的建立需要不断的测试与优化,在处理过程中,应当深刻认识到自然语言处理涉猎的范围非常广泛,包括心理学、计算机、统计学等多种学科。把握自然语言处理的过程,能够更好的理解自然语言如何运用在机器翻译中。
自然语言处理的主要内容
自然语言处理包括的内容广泛,如对内容进行细化,则可以将自然语言处理分为:语言、词汇、语义等几个重要方面。随着计算机语言的快速发展,为自然语言处理提供了丰富的基础,其中包括理论基础,语言资源以及技术经验。当前计算机行业已将语音识别运用于日常服务中,例如在乘坐飞机或者在电话联系物流客服时,计算机能够识别人类语言,然后根据已经建立的语言库,对于常见问题进行机器式的回复。实现了智能的语言处理功能。目前如何完成计算机翻译问题,是研究自然语言处理最大的问题。
二、自然语言处理的研究方式
自然语言处理的研究方法
自然语言处理的重要基础之一是提供强大的数据支持,由于自然语言处理的主要方式基于对数据库进行大量的统计,形成对文本处理的进一步拆分和理解,数据库的不断扩大依托于NLP应用的不断发展。自然语言处理流程主要包括五个关键性步骤,其一是获取相关的预料、其二是对已经获取的物料进行预处理,包括对结构的拆分与词汇的分析、其三是对物料进行量化与特征化,使得物料其中的规律能够被自然语言处理系统识别、其四是数据模型的反复验证,其中包括人工监督,半人工监督和无人工监督的学习模型,通过大量的数据练习,来纠正自然语言处理过程中存在的一些问题、其五是对完善的数据模型效果进行评价,常用的评价标准主要包括:准确率、召回率等。
2.自然语言处理基础研究之词法分析
词法分析的关键是对词性的识别和词义的解释,主要流程是先对物料进行分词、其次对物料中词的词性进行确认,最后识别词的含义。词性作为词汇最重要的语法属性,必须要根据具体的语境,能够消除词汇的歧义。其主要依托于分词的准确性,在对特殊的词汇例如人名、专有词汇的标注。自然语言处理的词法分析是通过已掌握的规则,基于庞大的数据不断进行统计与学习的方式,来完善自然语言处理能力。
3.自然语言处理基础研究之句法分析
句法分析的主要目的是为了确定句子中每个词汇之间的规律,研究句子的句法结构,能够真正技术上实现对句子结构关系的分析,对于具体的句法分析包括了完全句法分析和局部句法分析。完全的句法分析是根据现有数据模型中的分析方式来对句法进行解析,而局部分析仅需要对简单的词法进行分析。
4.自然语言处理基础研究之语义分析
语义的分析基于不同的语言单位,在语义处理中,必须先对此进行词义消除歧义,以及对特殊意义的词汇进行标注。语义分析作为NLP发展的重要方向,还在不断的研究与完善中发展。
5.自然语言处理基础研究之语用分析
语用分析需要将文本中的文字描述与实际真实含义相对应,形成表意结果。发话者、受话者、话语内容与语境是语法分析的重要因素,发话者与受话者主要是指句子的发出者与接收者,而话语内容是指发话者的具体表达的结构,语境代表着话语内容传递过程中所处的环境。
三、机器语言及自然语言处理的发展策略
结合机器语言发展的历程,我们可以感受到方法论与模型构建的核心技术是机器翻译取得进步的动力来源,而其中提高进步的“物质基础”主要是特殊的大数据,即双语语料库。在机器翻译取得瞩目成果的同时不难发现其依旧存在较大的局限性,主要体现在由于经济市场互联网公司的高速发展,其科研水平也具有较高的水平,使得高校的研究内容竞争力下降的情况。主要是由于以下问题:其一基于通用的计算装置的内容,在通常情况下,神经机器翻译模型在带有attention机制的循环神经网络中运行。通俗来说,机器翻译中的源语言内容构成了序列对,而这个模型也是集中研究序列对。其次神经机器翻译模型的性能在一定程度上取决于双语语料库的大小,高校受限于工程的能力与条件,其获得数据库的能力将会逊色于互联网公司。最后设计并训练神经机器翻译模型需要以高强度的计算能力为基础,进行不断的摸索与实验,才能真正得出相關的数据,而高效的计算能力有效且相关实验手段与环境较差,相关烈度试验在实施过程中难度较大。由此可以得出相关结论,高校对于神经机器机器翻译的研究在各种基础条件的限定下,其研究成果难以超过大型的互联网公司,其次互联网公司在人才方面也将比高校更具有优势,由于其较高的薪水与足够的研发费用,使得高校在大数据模型的计算能力与分析能力上处于劣势。国家应当就目前的状况,对相关高校研究单位加大投入,才能使得机器翻译能够在未来的发展历程中更加顺利。国家需要从以下几个方面入手,主要包括:其一是建立起国家级别的大规模学习计算平台,通过规模庞大的计算平台,能够真正解决计算能力的局限。其二是建设国家级别的高水平丰富资料的双语语料库,语料库也是开展机器翻译研究的重要内容之一。其三应当加强对于创新技术的鼓励,设立相关奖项,鼓励相关研究人员发挥主观能动性更加积极的投入到机器翻译研究过程中。最后应当对特点条件下的神经机器翻译模型进行改进设计,在面临新的词汇情况下,机器翻译无法识别这些内容,而数据库已有的数据模型无法对新型的词汇进行识别,因而在研究设计过程中应当加强对机器翻译模型的不断更新,使其跟上时代快速发展的步伐才能做到真正为人类所用。但不断对机器翻译模型进行创新也是对于研究人员来说面临着巨大的挑战。 四、自然语言处理在机器翻译中的实际运用
1.机器学习
通过机器来学习获取额外的语言知识是自然语言处理的一个重要特征。机器学习为研究计算提供的方式,简单的阐述即是:通过计算机采集的大数据中得到模型的算法,然后让系统学习算法,最后将新的数据传递给计算机,在计算机中出现新的数据时,计算机可以根据现有的模型作出判断,为人类节约了时间。总而言之,机器学习是为了提高效率,从而减少对大量数据的计算,最后基于大量数据的情况下建立模型,能够科学为人类生活提供便利,并且在人类不断使用与反馈中对模型不断调整不断完善,使得自然语言处理更加强大。
2.机器翻译
机器翻译是指在无人工的帮助下,将一种自然语言转化成另一种自然语言。机器翻译是自然语言处理研究课题中最主要的部分,其中的主要过程包括:数据的发掘、词与字的分割、句法理解与分析等,机器翻译是一项正在发展过程中的庞大工程。其中基于目前的翻译方法可以将机器翻译分为两类:基于规则的机器翻译方法和基于语言资料库的机器翻译方法。在机器翻译中,在数据库的基础上进行翻译的话,需要庞大的数据训练库来构建训练模型。此外不同的数据类型将被优化整合到对应的数据模型,语言模型真正建立后,将会提高翻译的质量。
3.机器翻译与人工翻译的结合
机器翻译作为人工翻译的进阶版,能够协助人工翻译减少相关工作人员的工作量,且在日常生活中提供便利。但机器翻译在某些方面有待完善,需要人工翻译才能真正理解待翻译内容的含义。当前情况下,应当将机器翻译与人工翻译相结合,并且对两者做出不同的分工,将会大大体会到机器翻译带来的便利程度。在未来计算机技术的发展过程中,翻译智能水平将会得到质的飞越。但是目前情况下人工智能远不能独立服务于人类,需要与人工翻译结合才能发挥出最佳效益。
五、自然语言处理应用与机器翻译的研究趋势
在目前来看,无论使用人工翻译还是机器翻译,翻译的水准与翻译者的目标差距较大,例如日常使用的谷歌翻译、百度翻译、金山词霸等软件。由于中英文语法差异较大,但软件翻译更多侧重于对词的翻译,很难体现出对句子用法的翻译,导致翻译出的句子,语言结构混乱。促进语言翻译优化的主要目标是不断进行自然语言处理,随着时代的不断发展,算法的不断变革,数据规模将会越来越大,数据模型也将会更加完善。由于数据规模的不断扩大,自然语言处理将会减少在数据挖掘方面的工作。而是更多依赖机器进行筛选。这些数据的采集并不能被即刻使用且做出进一步的研究结果,但未来的研究提供了更多的可能性。其次算法将会跟随时代的发展潮流不断革新,深度学习的方法也将运用到自然语言处理的發展中,最终产生更加完善与系统的机器翻译方式,为翻译结果的准确性提供保障。最后计算机的研究将更深层次的与机器翻译技术结合,使得翻译的质量与速度得到进一步发展。最终为消费市场所使用,使得人们的日常生活更加便利。
结束语:自然语言处理在计算机的快速发展中,与机器翻译相联系,在此领域中不断得到新的突破,并且为其创新提供了方向。自然语言处理在机器翻译中的创新运用,简单介绍了自然语言处理的概念与特点。结合现代化的发展历程,在未来计算机更加成熟的发展过程中,将会根据人类的特定需求,不断完善其中的算法与模型,使其能够更加智能化的服务于人类的生活与工作。
参考文献
[1]陆正扬.基于计算机自然语言处理的机器翻译技术应用与简介[J].科技传播,2019,11(22):140-141.
[2]葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019,18(17):113-114.
[3]赵园丁.浅谈人工智能时代背景下自然语言处理技术的发展应用[J].办公自动化,2019,24(10):63-64.
基金:江西省社会科学基金项目(基于语句数字表达式的机器翻译研究,编号:18YY07)
江西财经大学 江西南昌 330013