论文部分内容阅读
金融是历史记录数据最丰富且准确的领域之一,具有数据和信息密集、数据量庞大、数据种类多样等特征。在人工智能快速发展的时代大背景下,金融行业从业者也希望能够借助人工智能技术来构建金融领域的高效智能信息处理系统,帮助金融从业者更加快速高效的获取信息,从而能够提前把握行业动态,追踪行业发展趋势,在海量的数据信息中捕捉机会,提高自身竞争力。垂直领域知识图谱可以作为智能信息处理系统的基础支撑,类似于如果想要成为一个领域的专家,就需要学习该领域的专业知识。因此,人工智能落地的关键技术之一就是知识图谱的设计和构建。因此本文从投资事件为切入点,通过知识图谱对投资事件中的投融关系进行分析研究,以此构建面向金融实体的知识图谱,帮助金融从业者更好的分析挖掘投资事件中的投融关系。本文的主要工作:1、论文数据的获取。本文利用网络爬虫技术在清科研究网站上爬取半结构的投资事件文本数据,为金融领域知识图谱的构建提供基础的文本数据资料。2、投资事件语义向量获取。本文首先利用哈工大社会计算与信息检索研究中心语言技术平台(Language Technology Platform,简称LTP)对文本数据进行分词,然后在BIOES序列标注规则的基础上,对标注编码进行自定义的补充,进而改善词性标注的效果。然后利用word2vec模型对本文数据进行训练,更完整地学习到投资事件领域词的语义向量表示。3、实体抽取模型创新。提出word-BiLSTM-Attention-CRF循环神经网络模型结构。本文在传统利用BiLSTM-CRF循环神经网络模型进行实体抽取方法的基础上,使用字词结合向量作为输入向量,并且在网络结构中添加了注意力机制。注意力机制赋予了不同特征向量的相应权值,能够有效地提高金融领域命名实体识别的结果。然后利用训练好的模型对经过词性标注的半结构化文本预料进行实体抽取,最终得到结构化的语料文本数据。4、知识图谱的构建及应用。经过前几个步骤的处理,利用python程序中py2neo模块,对所得的结构化文本数据进行实体属性创建,实体关系定义,最终利用Neo4j图数据库进行实体属性,实体关系及实体数据进行存储和展示,并提供查询功能。