论文部分内容阅读
随着文本数据在互联网上的快速增长,海量格式自由的文本简历虽然在工作中给人们带来了便利,但也产生了信息过载的困扰。为了提升非结构化文本简历的解析性能,本文将深度学习技术应用于简历解析中。主要工作如下:1.基于字序列的中文简历解析方法研究。针对浅层神经网络生成词表示的缺陷,构建双向长短时记忆模型(Bidirectional Long Short-Term Memory,BLSTM)对字序列进行建模,获得包含词内部信息的词表示;然后结合BLSTM和条件随机场(Conditional Random Fields,CRF)(BLSTM-CRF)对生成的词表示进行建模并对模型调优;最后使用训练好的模型对非结构化文本简历进行解析。实验结果显示,与传统词向量方案的简历解析模型相比,该方法的F1-score提升了2.31%。2.基于特征融合的中文简历解析方法研究。针对简历解析模型使用单一特征难以提高模型性能的局限性,提出融合多种有效特征来提升简历解析模型性能的方案。本文融合的是传统浅层神经网络生成的语义特征和BLSTM对字序列建模生成的特征。(1)采用concat的方式对这两种特征进行融合,然后使用BLSTM-CRF对融合之后的特征进行建模并对模型调优,最后使用训练的模型对非结构化的文本简历进行解析。实验结果表明,与传统词向量方案、字序列方案的简历解析模型相比,该方法的F1-score分别提升了3.27%、0.96%。(2)引入注意力机制用于融合上述两种特征,并将注意力机制引入至BLSTM-CRF模型中,最终采用训练好的基于注意力机制的BLSTM-CRF模型对非结构化简历进行解析。仿真结果显示,优化后与传统词向量方案、字序列方案、concat特征融合方案的简历解析模型相比,该方法的F1-score分别提升了6.39%、4.39%、3.43%。3.基于深度学习的中文简历解析系统设计。在之前实验和理论基础上设计将深度学习应用于中文简历解析的系统;在网页上展示了简历解析的结果,并将解析的结果应用于构建人物和公司的知识图谱。