关键字:人工智能;自然语言处理;操作票
Abstract:Inrecentyears,withthedevelopmentofinformationtechnology,artificialintelligencehasbecomeahotresearchtopicintheinformationage.Naturallanguageprocessingisafieldofcomputerscience,artificialintelligenceandlinguisticsthatfocusesontheinteractionbetweencomputerandhumanlanguage.Inthisfield,alargenumberofresearchresultsandproductsofartificialintelligencehavebeenproduced,whichisaresearchhotspotinthefieldofartificialintelligenceatpresent.Usingthetheoryofalgebraiclinguisticstobuildtheexpertsystemofsyntacticanalyzer,theMMTmodelofChineseinformationisusedintheresearch.TheresearchresultsshowthattheMMTmodelbasedonChineseisareferencemethodtofurthersolvethecurrentsyntacticanalysisproblems,reducingambiguityandanalysislevel.Thesignificanceofitsresearchresultsliesinthatitcantestgrammarrules,establishsentencegrammarmodelstructurethroughdeepprocessingofcorpus,providepracticaltoolsandmodelsfordeepunderstandingofnaturallanguage,expansionofgrammarknowledgebase,andin-depthstudyofsentenceFrenchmeaning.
Keywords:Artificialintelligence;naturallanguageprocessing;operationticket
1引言
电力生产过程中经常要进行电气操作。由于电力系统开关操作失误,严重的人身和设备事故时有发生。如何让自然语言处理技术与操作票结合,让操作员方便快捷的开出合规的操作票,就是电力行业一个急需解决的问题。
语义维度是基于自然语言处理(NLP)的句子研究的出发点和重点,是指导句子研究的语义维度。从语义维度构建句子研究框架,从语义维度对句子类型进行分类,形成句子语义类型体系。本文的研究内容包括,一个完整的语法分析操作票信息,还有通过语料库的处理,提取规则,提取的语法规则和逻辑分析,最后还有基于代数理论实现语义和语篇结构分析,建立中文文本规则匹配工具,包括现代汉语语料库加工和探索汉语语法的实际模型理论方法和工具。基于构词的中文分词方法,分词用于操作票指令,然后,通过词性标注部分词性标注对分词结果进行标记。最后,根据操作票的语法规则,实现操作票动作、对象和状态的提取。该方法不仅消除了常规提取所需的大量人工配置工作,而且提高了效率。
2实现方法
- 中文分词
中文分词的结果是识别和提取的基础操作票的内容,中文分词的目标是提高操作票文本分词的准确性,特别是没有用的词语(没有加入单词列表的词),要把其彻底的剔除。
在采用基于词表的分词算法时,如正向最大匹配法和n-最短路径法,最大的问题之一是没有加入词典的词的分词存在固有的缺陷。一般的解决方案是添加一个没有加入词典的词模块来处理没有加入词典的词的分割。在中文分词中,没有加入词典的词的分词错误严重影响了整个分词的查全率。基于构词的汉语分词算法将汉语分词转化为汉语单词序列标记,较好地解决了没有加入词典的词的处理问题。根据单词在单词中的位置,将单词的单词位类别分为四种:单字(S)、单词前缀(B)、单词中间(M)和单词结尾(E)。
- 句法分析
句法分析是在给定的语法基础上,自动识别句子中所包含的句法单位及其相互之间的关系。语法分析工具利用语法符号语言将系统获取的中文文本转化为符号语言表达式。利用符号句和中文文本句构成二部图模型,构成符号句。推理机的工作包括两个方面:一是确定语言的语法体系,即在操作指令语言中正式定义句子的语法结构;另一方面,句法分析意味着一个句子的语法结构可以自动地从一个给定的语法系统中派生出来,并且可以分析一个句子中所包含的句法单位和这些句法单位之间的关系。基于语料库的句法分析,是基于语料库提供的数据资源来分析汉语或英语句子并生成报告的过程。句法分析包括句法功能分析和句法结构分析。语法知识库的设计采用冯志伟的中文信息MMT模型来构建一本语法词典。使用初级标准现代汉语语料库中各语言块的自动分析结果作为数据集。然后再对对语料库中的所有句子进行分析和统计分析。 本文构建了一个基于MMT中文信息模型的语法知识库规则词典。多分支结构用于描述语法规则。它是一个基于规则的自底向上的集成算法。多标记识别,如汉字的170个部分可分为12类。根据这个分类系统,可以在归一化的过程中进行分析。相同和不同的汉语构词理论和实证数据。作为汉字的标记,可分为语音标记、语义标记、、汉字分类标记等。利用汉语信息的MMT模型、多树语法词典和带有部分语音标记的分词词典对语料库文本进行自动分析。
句法分析结果可分为两组:1)成功组。2)分析故障块集合。处理部分需要人工检查,根据系统给出的分析,添加足够的词典或语法规则,直到所有的句子、段落或章节自动分析。根据句法规则,我们用递归的方法替换句子,得到句子的句法结构。该系统将现代汉语的具体词汇转化为语法和短语符号,实现汉语句子复杂特征集的操作。运用符号学理论构建语法符号学句子。本文的核心和关键技术是语法符号和句子的递归分析的融合操作。
- 词性标注
语音标注部分的输入为汉语分词后的操作票文本的输出,输出为相应的语音部分。语音部分标注基于HMM实现,中文分词结果对应于观测序列(一个词对应一个观测值,一个文本对应一个观测序列),语音序列部分对应于状态序列。以“合上#5机380V脱硫工作PC端电源6275开关”为例,观测序列为{合上,#5机,380V,脱硫工作,PC端电源,6257开关},其相应的状态序列是词性{动词、名词、名词、名词、名词、名词}的一部分。其状态空间模型是{s1、s2、s3、s4 ,s5,s6} = { v,n,n,n,n},n,n}},并观察空间{o1、o2……是所有单词的非重复集合。这样就对所有的操作指令进行标注。
- 模型训练
该技术需要使用训练语料库对中文分词和词性标注两种模式进行训练,使用具有代表性的训练语料库有助于提高模型的效果。利用收集到的操作票指令数据组成的训练数据,训练基于HMM的汉语分词模型。按照规则的训练数据进行处理,为后一个词词位序列根据词性标注一节中描述的参数估计方法,遍历行语句,训练语料库统计获得第一个),每个词的频率连续的词语转换数,每个单词对应的词性,每个单词的次数归一化得到π初始状态矩阵,状态转移矩阵和状态观测矩阵。遍历每一行后训练语料库,使用相邻词的转换数量,和相应数量每个词性的出现次数获得的统计数据,然后就形成初始状态矩阵,状态转移矩阵和状态观测矩阵。最后训练出操作票指令专用的分词和词性模型。
- 内容提取
结合中文分词的状态序列和部分词性标注,分析了操作票文本的语法语义模型,所有的操作票语句都可以抽象为“动作+设备+初始状态+最终状态”的形式。
- 智能生成
建立事实和知识规则库,应用ES推理机制,推理形成实际操作票。该机制由数据库、知识库和推理机三部分组成。其中,电站和变电站的主要接线形式及相关设备存储在数据库中,与电气名称、事实陈述和推理过程中的中间结果有关。将电气操作的知识规则存储在知识库中,利用元规则系统对这些规则进行约束、补充、选择和控制。在推理机制中,利用MMT训练模型实现自动匹配和回溯的推理控制机制,在知识库中搜索与目标任务匹配的规则,最终解决问题。
3关键技术点
本文开发的操作票系统在保证系统可靠性的基础上,具有开放性、通用性、灵活性和实用性的基础上,综合分析国内外现有的操作票系统,结合实地调查收集用户需求,提出使用面向对象的、跨平台的编程技术相结合的理论专家系统,开发一套具有良好的开放性、通用性、灵活性和实用性的智能操作票专家系统的设计思想和设计一套全面和有效的解决方案。
由于操作票的生成过程是一个需要大量知识和经验推理的過程,很难建立精确的数学模型,因此传统的数学分析方法显然不适合该系统。专家系统是一种弱解方法,适用于解决经验问题和逻辑问题。因此,本文从机器学习和自然语言处理的角度出发,机器可以学习理解操作票指令的相关内容,然后将理解结果训练成模型,提供操作票的内容提取和智能生成。
4结论
智能性:利用专家系统理论,建立自动开票模型和错误检查模型。本系统具有智能开票和纠错功能。系统还可以智能识别各种线路和设备的各种运行状态。
通用性:本文根据总体思路设计了专家数据库。该系统通过提供用户友好的维护工具和增加专家数据库的知识,可以满足用户的开票要求。此外,还使用跨平台编程工具来开发具有跨平台执行能力的系统。
可靠性:本系统根据电网实时运行参数,通过专家知识的推理,完成开票流程,操作票准确性高。同时,系统具有综合纠错能力,提供操作票预览功能,进一步保证了系统的可靠性。本系统具有用户权限管理功能,保证系统不越权操作。
实用性:本系统采用时下流行的IONIC工具包开发用户界面,界面简洁美观;充分考虑用户的操作习惯等因素,设计操作简单方便。系统提供了大量的用户设置,提高了系统的可用性。
该技术提高了效率,具有通用性,可直接应用于不同的变电站。此外,该技术具有机器学习方法的共同优势,通过对训练数据的整理,提高模型的效果,具有实用性和可靠性。
参考文献
[1]宗成庆.中文信息处理研究现状分析[J].语言战略研究,2016,1(6):19-26.
[2]杨福义.基于双语平行语料库的术语自动抽取[J].中国科技术语,2018(2):13.
[3]冯志伟.自然语言计算机形式分析的理论与方法[M].合肥:中国科技大学出版社,2017:819-820.
[4]郑志恒.智能信息处理-汉语语料库加工技术[M].北京:科学技术出版社,2010:168.
[5]曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015,38(12):13-18.
[6]邓莉琼,张贵新,郝向宁.基于知识图谱的图像语义分析技术及应用研究[J].计算机科学与应用,2018,8(9):1364-1371.
[7]李跃鹏,金翠,及俊川.基于Word2vec的关键词提取算法[J].科研信息化技术与应用,2015,6(4):54-59.
[8]Wang,Z.,Kuan,K.Ravaut,M.,etal.(2017)TrulyMulti-ModalYoutube-8MVideoClassificationwithVideo,Audio,andText.ComputerScience,arxivpreprintarxiv2017:1706.05461.
[9]邓莉琼,吴吉祥,张丽.从视频到语义:基于知识图谱的视频语义分析技术[J].计算机科学与应用,2019,9(8):1584-1590.