论文部分内容阅读
随着智能技术的不断发展,电网系统也迈入了人工智能阶段。在电网行业中大量的设备故障缺陷信息被以文本的形式记录下来,因此,研究出一套从案例中抽取、分析潜在故障规律的方法,对于生产中预防设备故障,提高电力系统健壮性,具有重要意义。由于电网领域极强的专业性,一般的信息抽取与文本分析方法难以直接使用。因此,如何将电网设备知识进行合理组织,使之能服务于案例分析挖掘;如何结合领域表达的用语特点与结构模式,进行设备故障关联分析和故障级别识别方法的设计;如何结合实际的大数据生产场景,基于分布式框架将功能进行模块化实现,都是本课题研究的关键问题。本文围绕以上问题设计实现了一套电网设备故障缺陷案例的抽取分析流程,并将以上功能集成到基于Spark的电力设备数据分析平台,实现了大规模案例的高效分析。在抽取和分析阶段将信息分为词语型和句子型。在抽取阶段,对词语型信息首先设计构建领域本体知识库,进行设备与故障信息的抽象表示;之后设计案例文本语义槽框架,结合槽填充思想,实现基于本体库的关键词语抽取算法,对句法结构复杂的案例进行有效抽取。对句子型信息,首先进行类别语句的特征分析,基于bag-of-word和线性核支持向量机进行句子的分类抽取。在分析阶段,对词语型信息采用关联规则进行故障关联分析,结合Spark框架对FP-Growth进行算法的分布式实现,在Growth阶段对共享前缀和单枝结构通过拆分重组FP-Tree进行计算优化,并将该算法应用到词语型信息进行故障关联规律挖掘。对句子型信息,针对文本包含大量复合专业词汇的特点,设计了 F-GCNN故障级别划分算法,利用fasttext训练领域词向量,实现对案例文本更准确的表示;构建GCNN网络实现对故障级别的高效准确划分。最后将以上抽取分析功能封装为组件,集成到基于Spark的电力设备数据分析平台。