【摘 要】
:
随着牵引供电系统智能运维的发展,对牵引供电设备在全生命周期内形成的各类数据的挖掘、分析的重要性日益凸显。目前针对牵引供电设备在运维过程中产生的结构化数据,处理和应用研究相对成熟。但海量的牵引供电设备历史缺陷文本因属于非结构化数据,需要人工处理、耗时耗力、难以被充分利用。在此背景下,本文对牵引供电设备缺陷文本的挖掘及应用进行了研究,通过自然语言处理和信息提取等文本挖掘相关技术,对缺陷文本信息进行挖掘
论文部分内容阅读
随着牵引供电系统智能运维的发展,对牵引供电设备在全生命周期内形成的各类数据的挖掘、分析的重要性日益凸显。目前针对牵引供电设备在运维过程中产生的结构化数据,处理和应用研究相对成熟。但海量的牵引供电设备历史缺陷文本因属于非结构化数据,需要人工处理、耗时耗力、难以被充分利用。在此背景下,本文对牵引供电设备缺陷文本的挖掘及应用进行了研究,通过自然语言处理和信息提取等文本挖掘相关技术,对缺陷文本信息进行挖掘和应用,从而实现对该类文本的自动化和信息化管理,丰富智能运维中各类高级应用的数据来源。本论文具体开展了如下工作:首先通过现场调研,分析了现场牵引供电设备缺陷文本类数据处理及应用所存在的问题,主要包括难以高效处理、难以信息化管理、缺陷文本中蕴含重要信息未被充分应用等,提出了文本挖掘和应用的需求。基于文本挖掘相关技术,构建了牵引供电设备缺陷文本挖掘框架,并进行了相应的功能规划。为解决牵引供电设备缺陷文本处理耗时耗力、挖掘不到位的问题提供总体思路。在牵引供电设备缺陷文本的挖掘流程中,对缺陷文本进行中文分词是文本预处理的关键步骤。为实现牵引供电设备缺陷文本的准确分词,本文首先构建了动态更新的牵引供电设备缺陷文本领域分词词典。其次,优化了传统的基于词典与统计结合的中文分词方法,研究了一种基于动态的牵引供电设备缺陷文本词典和隐马尔可夫结合的中文分词方法。最后,基于中文分词的评价指标对本文中文分词方法分词效果与目前主流分词方法分词效果进行对比,验证本算法对牵引供电缺陷文本分词的有效性。最后,为对分词后的牵引供电设备缺陷文本进行信息挖掘。首先定义了牵引供电设备缺陷文本语义框架和语义元素,考虑现场缺陷文本记录产生的差异性和部分缺陷文本欠规范性,结合缺陷文本语义相似度,研究了一种考虑核心语义缺失的设备缺陷文本信息挖掘模型。其次,针对语义框架的填充,基于缺陷文本中文分词的结果和设备导则构建了牵引供电设备缺陷文本的本体词典,设计并实现了对牵引供电设备缺陷文本的信息挖掘方法。最后,通过编程实现了基于牵引供电设备缺陷文本挖掘后形成结构化数据的统计分析功能,验证了本文的文本挖掘方法对难以直接挖掘、记录存在差异性和部分不规范性的缺陷文本在统计分类上的应用价值。
其他文献
随着稀土永磁材料开发力度的增加与电机制造工艺的提高,永磁同步电机凭借其物理结构简单、使用可靠性好,高功率密度和高动态性能的优点,逐步在轨道交通、航空航天、电力船舶、新能源汽车等领域得到应用。以高速列车和城轨列车为典型代表的大功率交流传动场合中,牵引变流器受限于安装空间和散热条件,一般要求功率器件降低工作开关频率以满足温度和开关损耗要求。传统的矢量控制和直接转矩控制算法在低开关频率下都难以保持较高的
我国是一个地质灾害多发国家,而滑坡作为最常见的地质灾害之一,严重威胁了我国的生态环境和人民的生命财产安全。滑坡参数的定性判识与定量计算对灾后风险评估,应急抢险有重要的参考价值。但是传统的野外测量方法,工作量大、效率低,无法满足灾后应急抢险需求,非接触式的遥感测量方法如摄影测量和三维激光扫描可以提高处理效率,但是对设备要求较高,且需要测量人员具备扎实的测绘知识基础。所以对于灾后抢险工作而言,迫切需要
川藏铁路是一项建设难度极大、环境影响极其深远却又必须要建的国家重大区域性基础设施工程。其建设将对沿线藏区脆弱的生态系统带来巨大的扰动,其中铁路车站片区所产生的干扰最为持续和突出。川藏铁路站点和站区的建设极可能为沿线区域的生态环境及生态安全格局带来众多干扰因素,例如景观异化、自然生态区域被侵占、生境恶化等。川藏铁路沿线区域的自然生态环境和以藏族为主的社会经济模式具有极大的地域独特性,且社会发展和经济
高压直流输电(High Voltage Direct Current,HVDC)技术具有传输功率大、输电距离远和经济效益好的优点,在远距离大容量输电中发挥日益重要的作用。直流输电线路数量众多,且工作环境复杂、故障率高。因此可靠的直流输电线路保护,对保障电力系统的安全稳定运行具有重大意义。然而,实际工程中的HVDC系统线路保护存在一些问题:(1)现有工程中采用的行波保护存在的耐受过渡电阻能力较弱,导
提升货运铁路智能化水平是未来货运铁路发展的必由之路,其中以自动驾驶技术为代表的新型技术正在引领新一轮的技术革新。货运列车速度跟踪控制作为货运列车自动驾驶的核心技术之一,旨在以自动化代替人工进行列车调速。但货运列车长距离运输、环境多变造成列车基本阻力呈现非线性、时变性,极大影响货运列车速度跟踪控制精度。此外,货运列车离散级位控制,在速度跟踪控制中需满足级位切换规则,这对速度跟踪控制器提出较高要求。因
近年来,随着社会的发展,电网规模日益剧增,对变电站的电力设备来说,其检测复杂化日益凸显。传统的基于红外温度成像的电力设备缺陷检测方法采用的模板匹配法需固定焦距、角度和距离,因此当变电站情形发生变化时,这些条件需要重新设置。仅仅依赖该算法难以准确检测电力设备,亟待研究新的、更可靠的电力设备检测方法。给出了一种基于深度学习与部件定位相结合的电力设备红外图像检测与红外温度缺陷检测方法。首先给出一种改进的
本文研究了滁菊多糖提取、分离过程及药理分析和功能性面条的研制。首先研究了利用闪提法对滁菊中粗多糖进行提取,采用混料设计结合星点设计优化工艺方案,并对提取工艺优化条件进行验证。进一步研究滁菊多糖纯化工艺,对提取的滁菊多糖类成分采用DEAE-Cellulose-52进行分离,并在试验过程中对脱蛋白及脱色工艺进行分析,获得优化分离工艺条件。药理分析对分离的多糖类成分进行了糖尿病小鼠试验,采用组织结构解剖