铁路事故故障文本大数据分析关键技术研究及应用

来源 :中国铁道科学研究院 | 被引量 : 26次 | 上传用户:mmcccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
安全是铁路运输永恒的主题。围绕安全中国铁路已建立车务、机务、工务、电务、车辆等各专业安全监测/监控系统数十个,产生了PB级规模的各类监控/监测数据。这些海量监控/监测数据绝大多数为语音、文本、图形图像等非结构化数据。由于其他形式的信息都可以通过文本描述来实现,因此当前文本是海量信息的主要载体。在铁路行车安全领域体量最大的、保存周期最长、蕴含价值最丰富的文本文件就是铁路非结构化事故故障文本。铁路非结构化事故故障文本主要包含事故故障追踪报告、事故库、故障库等,大多以Word、Excel等形式存储,且以纸质形式存档,受限于传统技术限制,这些事故故障文本难以进行有效存储和分析,无法挖掘蕴藏在文本数据中的巨大价值。为实现海量铁路事故故障文本的分布式存储、检索和分析,推动领先的大数据分析技术在铁路安全领域的应用,本文主要对铁路事故故障文本大数据分析关键技术进行了研究和应用,主要取得了以下创新成果:(1)铁路事故故障文本大数据分析的整体框架。针对铁路非结构化事故故障文本大数据难以有效分析和应用的问题,提出按照“平台+应用”的模式构建,即在统一的铁路大数据平台基础之上,应用文本大数据分析技术,实现铁路海量非结构化事故故障文本数据分析,并给出了总体架构、技术架构、功能架构和主要的关键技术。(2)基于ES的铁路事故故障文本分布式全文检索。针对海量铁路事故故障文本难以存储和检索的问题,本文提出了基于Lucene的分布式全文检索引擎Elasticsearch的分布式存储和检索解决方案。即应用ES集群实现海量铁路事故故障文本数据的分布式存储,并采用融合铁路领域词典的Jieba中文分词,应用倒排索引技术实现中文分词后的快速索引,最后实现基于TF-IDF算法的全文检索。通过对某路局2016年7月至2016年12月份的铁路总公司事故故障追踪报告进行实验分析,表明基于ES的全文检索的效率不会随着文本数量的增加而出现明显下降且可实现根据查询条件相似性高低排序的铁路事故故障文本全文检索。(3)基于Bi-LSTM+CRF的铁路事故故障文本特征提取模型。针对铁路事故故障文本中事故故障名称、时间、地点、原因、整治措施等关键信息难以提取的问题,本文提出基于Bi-LSTM+CRF的铁路事故故障特文本特征提取模型。即应用BIO标记事故故障文本,并通过Word2Vec实现标记文本序列的向量转化,之后应用深度学习中的Bi-LSTM自动学习BIO标记的事故故障词向量序列特征,然后通过CRF学习事故故障文本标记的全局特征,从而提高事故故障文本特征提取的效果。最后基于TensorFlow 1.2+Python3.6分析环境,以某路局2016年7月-2017年7月的电务专业事故故障追踪报告数据进行实验分析,实验结果表明在本文提出的事故故障文本特征提取模型在各实体提取的准确率、召回率和F-Score均在80%以上。(4)基于不平衡文本数据挖掘的铁路事故故障智能分类模型。针对铁路设备机理、自然条件不同等而导致的不平衡事故故障文本数据问题,本文提出基于SVM-SMOTE的不平衡故障智能分类模型。即利用SVM-SMOTE算法对小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某路局2012-2016年铁路信号设备故障文本数据实验分析,表明该模型使得故障分类的准确率、召回率和F-score均得到显著提升。(5)基于知识图谱的事故故障关联分析和原因智能推荐模型。针对传统事故故障分析的专业壁垒以及无法实现事故故障超前防范的问题,本文借鉴互联网知识图谱和智能推荐思路,提出基于知识图谱的铁路事故故障关联分析和原因智能推荐模型。即利用不同事故故障发生设备部位结构之间的关系、以及铁路同专业和跨专业事故故障实体、原因实体等关系等构建铁路事故故障知识图谱,为事故故障关联分析及原因推荐提供支撑;通过利用改进相似度计算的ItemCF-IUF和UserCF-IIF协同过滤模型算法,实现事故故障的关联分析和原因智能推荐,同时将分析结果反馈到知识图谱,为知识图谱提供新的知识补充。最后应用提取特征后的某路局2016年7月至2017年7月份的铁路事故故障追踪报告数据为分析样例进行试验分析,通过覆盖率和新颖度两个指标,找出了选取相似性项目数K=20时,模型效果最佳,验证了改进相似度计算方法的有效性。最后本文以某路局的实际事故故障文本数据为例,通过PMML封装铁路事故故障文本分析的算法模型,应用Java SSH架构和Restful API接口,搭建路局事故故障文本大数据分析应用平台,实现了铁路事故故障全文检索、事故故障特征提取、铁路事故故障文本分词、事故故障多发区域分析、重点事故故障分析、事故故障原因推荐、事故故障关联分析等功能,通过实际工程应用,证明本文研究成果可以为实际现场作业人员提供切实有效的指导。
其他文献
前段时间,始于东非、祸及印度和巴基斯坦的蝗灾引起了全世界的关注.蝗虫所到之处,庄稼大片受灾,数千万只蝗虫在一天之内就能吃掉上百吨各种各样的植物,破坏力惊人.
期刊
本文介绍了国内外分布式温度传感技术的研究现状,对光纤的拉曼散射和基于分布式传感器温度解调方法进行了详细分析,在此基础上进行了单通道分布式温度传感器的实验测试工作,
在国民经济的高速发展和居民收入不断提高的大环境下,各大城市的机动车快速增长。然而交通机动化水平提高的同时,一系列城市交通问题相继出现并不断加剧。许多城市为了从根本上
我国最早类似于“旅馆”的场所叫“驿传”,是供古代传递文书人员及诸侯往返都城途中居住的旅店,西周初期已很常见.春秋战国时期,除了官用的“驿传”,民间商业性客舍也有了发
期刊
随着航运业的蓬勃发展,使得货物的流通朝着集装箱化运输迈进。影响集装箱运输的主要因素有两个:安全与效率,无论哪一个因素,集装箱装卸人员的业务水平都是其前提,相对于先由
针对国内外转炉炼钢终点控制现状和发展趋势,结合炉口火焰图像信息与DSP视频采集与处理系统,提出了一种实时判断转炉炼钢终点的方法,提取炉口火焰图像特征信息并实时显示。本文
光学显微镜是人类对微观领域探索过程中必不可少的工具。三维断层相位显微镜是近几年来提出的一种新型测量细胞三维断层折射率分布的方法。它使用激光多角度扫描细胞样品,并