论文部分内容阅读
摘 要:本文從电网制度领域智能化文本解析角度出发,提出一种针对结构化、非结构化文本数据词库生成算法应用。该算法通过采集贵州电网制度数据,融合多种语义解析词库算法,实现对各种制度文档词库的抽取,形成电网制度领域的基础词库,同时实现新词发现,为后期制度领域的信息化、智能化建设提供统一、可复用的词库数据支持,从而有效的提升数据利用率。
关键词:词库;电网;智能化;语义解析
0引言
本文从电网制度文档存储方式和表现形式入手进行考察,提出一种基于结构化、非结构化文本数据构建语义词库的方法应用。该方法应用能够从海量文本数据中抽取具有相似词性、词义的词组构建成支撑语义解析的词库,从而为电网专业知识库构建提供底层词库支撑,同时为相关智能搜索提供便捷、有效、智能化的语义词库基础,尤其是制度文档的语义解析与搜索应用。为电网公司人工智能技术的应用提供一种语义理解方向的底层技术参考。
1文档现状分析
1.1 结构化文本文档
文本数据承载企业巨量运营信息,是公司知识沉淀与变现的重要来源,支撑创新驱动。OA邮件、发文、工作方案、工单等文本数据,承载了企业巨量运营信息,蕴含了巨量隐性知识价值。通过对这些文本数据挖掘,有助于公司知识资产持续沉淀与变现,是“十三五”创新驱动规划中五大创新的重要支撑。
1.2 非结构化文档
本次研究中,采集了贵州电网的多种数据,并根据数据的不同情况,分别应用到了NLP中的不同领域,包括OA邮件发文数据、it设备台账、工单、操作票等。
2词库概述
2.1 词库在NLP任务中的作用
词库在NLP中的作用主要有以下几个方面:构建文本特征向量、分词、实体识别、实体关系抽取、知识图谱的基础组成等。
2.2 基于词库的典型方法
2.2.1 独热编码与词嵌入
独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。在机器学习中,常常遇到分类型特征,即不能用连续的数值表示的特征,贵州电网的文本集合就可以抽取为这样的特征。这些特征值并不是连续的,而是离散的,无序的。
2.2.2 词袋模型
词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。在词袋模型统计词频的时候,可以使用sklearn中的CountVectorizer。由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。因此在实际应用中一般使用稀疏矩阵来存储。
2.2.3 词频与逆向文本词频
TF-IDF模型(term frequency–inverse document frequency,词频与逆向文本频率)是:TF*IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
3生成词库的方法
3.1 新词发现
新词是一个最近铸造的发明词或者词的重新组合。本次研究采用了基于统计的词关联性信息与统计特征与词法特征相结合的新词发现方法。对电网预料进行分词,将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。
在构建电网词库时,首先假设整个电网领域的词语都是“未登录词”,使用上述方式进行成词的抽取,最后与已经真实存在的电网词库进行交叉对比校验,以结果来动态扩充词库。
3.2 候选词结构制定
由于电网领域词语的最大长度无法在初始化时确定,因此,在词的结构上,使用N-gram统计模型。其主要思想是:一个单词的出现与N-gram模型建立在一种假设前提下,即假设第n个词的出现只与前面n-1个词相关,并且与其他任何词都不相关,得到的各个词出现的概率的乘积就是整句的概率。
3.3 词向量方法
Word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。
分布式表示优点:
(1)词之间存在相似关系:
(2)包含更多信息:
词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。
本研究采用跳字模型和连续词袋模型融合应用方式实现。
跳字模型。在跳字模型中,我们用一个词来预测它在文本序列周围的词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所关心的是,给定”hit”,生成它邻近词“the”,“man”,“his”,和”son”的概率。在这个例子中,”hit”叫中心词,“the”,“man”,“his”,和”son”叫背景词。由于”hit”只生成与它距离不超过2的背景词,该时间窗口的大小为2。
假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,跳字模型需要最大化给定任一中心词生成背景词的概率:
连续词袋模型。连续词袋模型与跳字模型类似。与跳字模型最大的不同是,连续词袋模型中用一个中心词在文本序列周围的词来预测该中心词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,连续词袋模型所关心的是,邻近词“the”,“man”,“his”,和”son”一起生成中心词”hit”的概率。
假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,连续词袋模型需要最大化由背景词生成任一中心词的概率:
4结语
面对能源互联网所带来的数据海量化的趋势,电网日常工作中产生的结构化、非结构化数据日益增多,为解决对海量数据面临的多次重复训练的问题,电网各领域信息系统建设数据重复利用问题,本章提出构建一种针对电网制度数据的词库生成方法,在制度领域实现了底层知识数据的词库构建,有效的为上层智能应用,如语义解析、智能搜索、数据分析等提供了统一、快速、可复用的电网词库能力支撑,同时智能化的实现新词发现,实现了实时地对数据进行训练的功能,表明该方法能够有效支撑电网智能化体系构建。
参考文献
[1]戴彦,王刘旺,李媛,颜拥,韩嘉佳,文福拴.新一代人工智能在智能电网中的应用研究综述[J].电力建设,2018,39(10):1-11.
[2]奉国和 , 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, (02), pp.41-45CNKI
欧阳静(1986.5-33),汉,贵州贵阳人,学士,贵州电网有限责任公司信息中心助理工程师,主要从事信息系统建设与研究。
[基金项目]本文为贵州电网有限责任公司信息中心科技类项目“基于非机构化文档内容自动识别技术的电网制度百科平台研发及应用”(项目编号:066700KK52180027)的研究成果。
关键词:词库;电网;智能化;语义解析
0引言
本文从电网制度文档存储方式和表现形式入手进行考察,提出一种基于结构化、非结构化文本数据构建语义词库的方法应用。该方法应用能够从海量文本数据中抽取具有相似词性、词义的词组构建成支撑语义解析的词库,从而为电网专业知识库构建提供底层词库支撑,同时为相关智能搜索提供便捷、有效、智能化的语义词库基础,尤其是制度文档的语义解析与搜索应用。为电网公司人工智能技术的应用提供一种语义理解方向的底层技术参考。
1文档现状分析
1.1 结构化文本文档
文本数据承载企业巨量运营信息,是公司知识沉淀与变现的重要来源,支撑创新驱动。OA邮件、发文、工作方案、工单等文本数据,承载了企业巨量运营信息,蕴含了巨量隐性知识价值。通过对这些文本数据挖掘,有助于公司知识资产持续沉淀与变现,是“十三五”创新驱动规划中五大创新的重要支撑。
1.2 非结构化文档
本次研究中,采集了贵州电网的多种数据,并根据数据的不同情况,分别应用到了NLP中的不同领域,包括OA邮件发文数据、it设备台账、工单、操作票等。
2词库概述
2.1 词库在NLP任务中的作用
词库在NLP中的作用主要有以下几个方面:构建文本特征向量、分词、实体识别、实体关系抽取、知识图谱的基础组成等。
2.2 基于词库的典型方法
2.2.1 独热编码与词嵌入
独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。在机器学习中,常常遇到分类型特征,即不能用连续的数值表示的特征,贵州电网的文本集合就可以抽取为这样的特征。这些特征值并不是连续的,而是离散的,无序的。
2.2.2 词袋模型
词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。在词袋模型统计词频的时候,可以使用sklearn中的CountVectorizer。由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。因此在实际应用中一般使用稀疏矩阵来存储。
2.2.3 词频与逆向文本词频
TF-IDF模型(term frequency–inverse document frequency,词频与逆向文本频率)是:TF*IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
3生成词库的方法
3.1 新词发现
新词是一个最近铸造的发明词或者词的重新组合。本次研究采用了基于统计的词关联性信息与统计特征与词法特征相结合的新词发现方法。对电网预料进行分词,将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。
在构建电网词库时,首先假设整个电网领域的词语都是“未登录词”,使用上述方式进行成词的抽取,最后与已经真实存在的电网词库进行交叉对比校验,以结果来动态扩充词库。
3.2 候选词结构制定
由于电网领域词语的最大长度无法在初始化时确定,因此,在词的结构上,使用N-gram统计模型。其主要思想是:一个单词的出现与N-gram模型建立在一种假设前提下,即假设第n个词的出现只与前面n-1个词相关,并且与其他任何词都不相关,得到的各个词出现的概率的乘积就是整句的概率。
3.3 词向量方法
Word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。
分布式表示优点:
(1)词之间存在相似关系:
(2)包含更多信息:
词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。
本研究采用跳字模型和连续词袋模型融合应用方式实现。
跳字模型。在跳字模型中,我们用一个词来预测它在文本序列周围的词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所关心的是,给定”hit”,生成它邻近词“the”,“man”,“his”,和”son”的概率。在这个例子中,”hit”叫中心词,“the”,“man”,“his”,和”son”叫背景词。由于”hit”只生成与它距离不超过2的背景词,该时间窗口的大小为2。
假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,跳字模型需要最大化给定任一中心词生成背景词的概率:
连续词袋模型。连续词袋模型与跳字模型类似。与跳字模型最大的不同是,连续词袋模型中用一个中心词在文本序列周围的词来预测该中心词。例如,给定文本序列”the”,“man”,“hit”,“his”,和”son”,连续词袋模型所关心的是,邻近词“the”,“man”,“his”,和”son”一起生成中心词”hit”的概率。
假设词典大小为|V|,我们将词典中的每个词与从0到|V|?1的整数一一对应:词典索引集V={0,1,…,|V|?1}。一个词在该词典中所对应的整数称为词的索引。给定一个长度为T的文本序列中,t时刻的词为w(t)。当时间窗口大小为m时,连续词袋模型需要最大化由背景词生成任一中心词的概率:
4结语
面对能源互联网所带来的数据海量化的趋势,电网日常工作中产生的结构化、非结构化数据日益增多,为解决对海量数据面临的多次重复训练的问题,电网各领域信息系统建设数据重复利用问题,本章提出构建一种针对电网制度数据的词库生成方法,在制度领域实现了底层知识数据的词库构建,有效的为上层智能应用,如语义解析、智能搜索、数据分析等提供了统一、快速、可复用的电网词库能力支撑,同时智能化的实现新词发现,实现了实时地对数据进行训练的功能,表明该方法能够有效支撑电网智能化体系构建。
参考文献
[1]戴彦,王刘旺,李媛,颜拥,韩嘉佳,文福拴.新一代人工智能在智能电网中的应用研究综述[J].电力建设,2018,39(10):1-11.
[2]奉国和 , 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, (02), pp.41-45CNKI
欧阳静(1986.5-33),汉,贵州贵阳人,学士,贵州电网有限责任公司信息中心助理工程师,主要从事信息系统建设与研究。
[基金项目]本文为贵州电网有限责任公司信息中心科技类项目“基于非机构化文档内容自动识别技术的电网制度百科平台研发及应用”(项目编号:066700KK52180027)的研究成果。