论文部分内容阅读
随着电网调度控制规模的不断扩大,电力相关企业积累了大量电力调度控制过程产生的数据,特别是文本数据。在电网信息化、智能化建设及人工智能技术兴起的背景下,如何有效利用这些数据成为当下研究的热点。早期出现的信息抽取系统往往依赖于手工建立的抽取规则,适应性和可扩展性较差。近年来,机器学习方法特别是基于统计的机器学习方法在文本处理方面受到了广泛关注。在实际的电力调度控制过程中,系统存储了大量调度操作指令、监控操作内容、开关跳闸处理内容、监控异常记录、现场异常处理内容等以文本形式的记录信息,本文将它们统称为电力调控文本。这些文本主要以夹杂着时间、数字、字母以及特殊符号的中文短文本的形式出现,蕴藏着丰富的设备运行状态、检修过程、操作记录等信息,对电网的智能化调度控制大有裨益。但由于上述文本存在着描述的多样性、近似性、冗余性等问题,这些信息还没有得到充分的利用。本文以电力调度控制中的指令票、调度票、申请单等电力调控文本为研究对象,通过对电力调控文本的语义解析,使得计算机能够识别、提取这些文本中包含的有用信息并将它们转化成通用的、计算机可解析的数据形式。针对电力调控文本,本文提出了适用于电力调度控制系统的语义解析框架,设计了一种基于电力调度控制领域文本的语义解析方案。本文首先详细介绍了电力调度控制技术及其发展状况并对电力调控文本进行了归类、分析。针对电力调控文本的特点建立了包括样本库、物理环境库及术语库在内的电力调控系统领域语料库,作为训练、测试样本及未来电力调控环境规则学习的文本来源。针对电力调控文本制定了分词标准并建立了包括基础词词典、组合词词典在内的电力调控领域词典,以用于电力调控文本的分词过程。有针对性的设计了包括词性标注、语义成分标注、语义模型等标注集,作为后续语义解析的基础。实验结果表明:相对于通用的中文词典,本文建立的领域词典能够有效提升电力调控文本分词的正确率。其次,研究了常用中文文本语义分析方法、工具,探索了它们在电力调度控制系统中应用的可能性。基于常用工具结合隐马尔可夫、条件随机场等模型以典型电力调控指令为文本对象对电力调度控制系统语义解析过程中分词、标注、语法分析进行了实验,并对实验结果进行了对比分析。结合条件随机场、长短期记忆网络模型等机器学习算法对电力调度控制领域文本进行了语义解析,对文本中的有效信息进行了提取整合。通过分析研究常用计算机通信数据形式特点及电力调度控制系统语义解析诉求,以JSON格式为基础,设计出了可方便的访问与处理的语义解析处理结果形式,形成计算机可识别分析的结构化数据模型。最后,给出了电力调控文本语义解析框架。结合自定义领域字典、语料库训练了适合于电力调控文本的语义模型,基于JAVA编程语言在开源程序基础上进行开发,并编写程序将其输出结果进行整理提取生成计算机可识别的通用格式,取得了阶段性的可用成果。本文融合语义解析及技术与电力领域知识,建立了适用于电力调度控制系统的语义解析框架。实验表明:本文所提出的语义解析框架应用于电力调控文本中,具有可行性和有效性。