人工智能词库构建技术在贵州电网制度文档语义解析中的应用研究

来源 :中国电气工程学报 | 被引量 : 0次 | 上传用户:liu7605136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:本文從电网制度领域智能化文本解析角度出发,提出一种针对结构化、非结构化文本数据词库生成算法应用。该算法通过采集贵州电网制度数据,融合多种语义解析词库算法,实现对各种制度文档词库的抽取,形成电网制度领域的基础词库,同时实现新词发现,为后期制度领域的信息化、智能化建设提供统一、可复用的词库数据支持,从而有效的提升数据利用率。
  关键词:词库;电网;智能化;语义解析
  0引言
  本文从电网制度文档存储方式和表现形式入手进行考察,提出一种基于结构化、非结构化文本数据构建语义词库的方法应用。该方法应用能够从海量文本数据中抽取具有相似词性、词义的词组构建成支撑语义解析的词库,从而为电网专业知识库构建提供底层词库支撑,同时为相关智能搜索提供便捷、有效、智能化的语义词库基础,尤其是制度文档的语义解析与搜索应用。为电网公司人工智能技术的应用提供一种语义理解方向的底层技术参考。
  1文档现状分析
  1.1 结构化文本文档
  文本数据承载企业巨量运营信息,是公司知识沉淀与变现的重要来源,支撑创新驱动。OA邮件、发文、工作方案、工单等文本数据,承载了企业巨量运营信息,蕴含了巨量隐性知识价值。通过对这些文本数据挖掘,有助于公司知识资产持续沉淀与变现,是“十三五”创新驱动规划中五大创新的重要支撑。
  1.2 非结构化文档
  本次研究中,采集了贵州电网的多种数据,并根据数据的不同情况,分别应用到了NLP中的不同领域,包括OA邮件发文数据、it设备台账、工单、操作票等。
  2词库概述
  2.1 词库在NLP任务中的作用
  词库在NLP中的作用主要有以下几个方面:构建文本特征向量、分词、实体识别、实体关系抽取、知识图谱的基础组成等。
  2.2 基于词库的典型方法
  2.2.1 独热编码与词嵌入
  独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。在机器学习中,常常遇到分类型特征,即不能用连续的数值表示的特征,贵州电网的文本集合就可以抽取为这样的特征。这些特征值并不是连续的,而是离散的,无序的。
  2.2.2 词袋模型
  词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。在词袋模型统计词频的时候,可以使用sklearn中的CountVectorizer。由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。因此在实际应用中一般使用稀疏矩阵来存储。
  2.2.3 词频与逆向文本词频
  TF-IDF模型(term frequency–inverse document frequency,词频与逆向文本频率)是:TF*IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
  3生成词库的方法
  3.1 新词发现
  新词是一个最近铸造的发明词或者词的重新组合。本次研究采用了基于统计的词关联性信息与统计特征与词法特征相结合的新词发现方法。对电网预料进行分词,将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。
  在构建电网词库时,首先假设整个电网领域的词语都是“未登录词”,使用上述方式进行成词的抽取,最后与已经真实存在的电网词库进行交叉对比校验,以结果来动态扩充词库。
  3.2 候选词结构制定
  由于电网领域词语的最大长度无法在初始化时确定,因此,在词的结构上,使用N-gram统计模型。其主要思想是:一个单词的出现与N-gram模型建立在一种假设前提下,即假设第n个词的出现只与前面n-1个词相关,并且与其他任何词都不相关,得到的各个词出现的概率的乘积就是整句的概率。
  3.3 词向量方法
  Word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。
  分布式表示优点:
  (1)词之间存在相似关系:
  (2)包含更多信息:
  词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。
  本研究采用跳字模型和连续词袋模型融合应用方式实现。
  跳字模型。在跳字模型中,我们用一个词来预测它在文本序列周围的词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所关心的是,给定”hit”,生成它邻近词“the”,“man”,“his”,和”son”的概率。在这个例子中,”hit”叫中心词,“the”,“man”,“his”,和”son”叫背景词。由于”hit”只生成与它距离不超过2的背景词,该时间窗口的大小为2。
  假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,跳字模型需要最大化给定任一中心词生成背景词的概率:
  
  连续词袋模型。连续词袋模型与跳字模型类似。与跳字模型最大的不同是,连续词袋模型中用一个中心词在文本序列周围的词来预测该中心词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,连续词袋模型所关心的是,邻近词“the”,“man”,“his”,和”son”一起生成中心词”hit”的概率。
  假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,连续词袋模型需要最大化由背景词生成任一中心词的概率:
  4结语
  面对能源互联网所带来的数据海量化的趋势,电网日常工作中产生的结构化、非结构化数据日益增多,为解决对海量数据面临的多次重复训练的问题,电网各领域信息系统建设数据重复利用问题,本章提出构建一种针对电网制度数据的词库生成方法,在制度领域实现了底层知识数据的词库构建,有效的为上层智能应用,如语义解析、智能搜索、数据分析等提供了统一、快速、可复用的电网词库能力支撑,同时智能化的实现新词发现,实现了实时地对数据进行训练的功能,表明该方法能够有效支撑电网智能化体系构建。
  参考文献
  [1]戴彦,王刘旺,李媛,颜拥,韩嘉佳,文福拴.新一代人工智能在智能电网中的应用研究综述[J].电力建设,2018,39(10):1-11.
  [2]奉国和 , 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, (02), pp.41-45CNKI
  欧阳静(1986.5-33),汉,贵州贵阳人,学士,贵州电网有限责任公司信息中心助理工程师,主要从事信息系统建设与研究。
  [基金项目]本文为贵州电网有限责任公司信息中心科技类项目“基于非机构化文档内容自动识别技术的电网制度百科平台研发及应用”(项目编号:066700KK52180027)的研究成果。
其他文献
摘要:在实际运行中,为降低配电设备运行故障的发生频率,供电企业应定期对配电设备进行检修与维护,及时更换设备中老化、毁损的零部件,观察电力市场动态变化,引进更加先进的配电设备,对设备运行状态进行监测,聘请专业的设备故障检修人员,做好设备全生命周期管理,才能为企业获取更多的经济效益,实现企业经济利益最大化目标,促进企业长期、稳定发展。  关键词:配电运行;检修;维护  1 配电运行中设备检修及维护的意
期刊
摘 要:电力监控系统的安全与否直接关系到电网能否安全稳定的运行。伴随国家对二次安全防护要求的提升,人们对电力系统 运行也提出了更高的要求。为此,文章在阐述电力监控系统安全防护主要原则的基础上,结合当前电力监控系统安全防护存在的问题,从管理制度和管理技术两个方面着重分析优化电力监控系统安全防护管理的策略,旨在能够更好的促进电力系统稳定建设发展。  关键词:电力监控系统;安全防护;管理;技术  在通信
期刊
摘要:无线视频监控系统是无线网络技术应用最多的领域之一,主要用于对重要区域或远程地点的监视和控制,该技术在油田领域正得到越来越广泛的应用。视频监控系统将被监控点实时采集的视频文件及时地传输给监控中心,实时动态地报告被监测点的情况,及时发现问题并进行处理。在通常情况下,由于油田车载装备分布在较广阔的范围内,并且与监控中心的距离较远,利用传统的有线连接方式,线路铺设成本高昂,而且施工周期长,或者因为物
期刊
摘要:随着经济和信息技术的快速发展,在当前信息时代的大背景下,移动互联网在不断发展促进了配电运检专业的技术革新。本文主要就国网湖北省电力有限公司宜城市供电公司配电运检专业应用移动互联网技术进行分析。  关键词:移动互联网;配电运检;发展现状  引言  随着当下互联网产业的迅速发展,人们在社会中无论是生产或是交通出行等日常生活方式都与互联网技术产业接轨。例如当下出现的互联网+物流,支付宝,哈哈出行等
期刊
摘要:随着时代的发展,我国综合实力与社会经济水平的提高,带动着我国工业行业的快速发展,而机械设计与制造在现代工业中占据着极为重要的位置,并对工业行业整体的运转与发展造成极大影响;为此,相关单位及人员可以加强现代先进技术与设备的应用,强化提高机械设计与制造的水平与质量,同时优化提高机械设计与制造工艺的水平,进而促进机械制造企业的正常运转与发展。下面主要以自动化技术在机械设计及其制造领域中的应用为例进
期刊
摘要:当前,随着我国经济水平的不断提升,城市道路基础设施不断完善,其中道路照明系统是保障交通正常运行,以及人们安全出行的重要保障,因此道路照明成为人们关注的焦点。而基于不同环境、不同使用范围的道路照明,其供配电系统设计也会有所不同,为了能够确保道路照明系统高速运行,就要供配电进行完善性设计。本文则以此为切入点,针对城市道路照明供配电进行深入分析,以期通过供配电系统内容的综合设计,来提高道路照明系统
期刊
摘要:目前我国经济建设发展迅速,电力企业也在逐渐扩大建设规模。伴随着我国现代化进程的不断深入推进和发展,无论是居民生活还是经济运行对于我国电力行业提出了更高层面的要求,尤其是在供电稳定性领域,部分地区仍然无法满足生产和生活的需要。为了确保我国社会电能安全供给,必须要从配电网和配电线路层面进行优化升级,通过降低电能在输送过程中的损耗提高资源利用率,并且要强化对配电网络的严格管理,能够将隐患扼杀在摇篮
期刊
摘要:在电能输送过程中,配电线路发挥了很大作用。配电线路在正常运行中可能会受到很多因素的干扰,从而引起线路故障,不利于电力系统的平稳运行。针对此种现象就要求电力企业加强对配电线路的关注,明确配电线路运维管理控制的主要方面,保障配电线路的稳定运行。  关键词:配电线路;常见故障;原因;运检管理  引言  由于配电线路的损坏而引发大面积的供电中断,将影响人们正常的生产生活,因此保障配电线路的长久稳定运
期刊
摘要:随着我国经济的高速发展,建筑总能耗逐年上升。供热行业在能源消耗、污染物排放方面占有相当大的比例。本文在详述水力平衡调试重要性、水力失调原因和水力平衡调节方法的基础上,结合实际项目案例,叙述了水力平衡调节在提高供热质量和降低成本支出的重要性。  关键词:供热管网;水力平衡;调节方法  1.水力平衡调试的重要性  供热管网是由众多串并联管路和用户连接组成。由于设计、施工运行等方面的原因造成供热管
期刊
摘要: 在当前社会生产与生活过程中,电力供应有着非常重要的保障性作用,特别是伴随着国内经济的快速发展,对于电能的需求迅速增加,对配电网等设施建设的需求逐渐提高。降低配电网电缆故障的发生以及出现故障快速查找定位,可以有效的提升电力供应系统的运行和稳定性,本文从配电网电缆的故障以及快速查找定位着手,对这一问题进行深入的分析,并提出相应的应对策略,希望能够对配电网电缆的实际运行效率提升产生一定的帮助。 
期刊