论文部分内容阅读
在大数据时代,数据逐渐成为驱动经济增长和社会进步的重要生产力和战略资源,加快推进这些数据资源的开放共享则是政府转型的内在需求及强大动力。为了更好地实现科技数据的共享联动和服务管理的高效便捷,陕西省政府充分利用工作中积累的丰富科技资源,提出了“科技服务管理一体化云平台”的建设目标。但在科技云的建设过程中所采集的原始数据绝大部分是非结构化的文本数据,许多资源无法直接使用,而仅仅依靠人工方式从海量数据中提取有效信息,将其转换为结构化数据需要消耗大量时间和人工成本,无法满足业务需求。基于对非结构化数据转换的迫切需要,本文提出非结构化数据向结构化数据转换的相关方法。本文首先分析了科技云中对非结构化数据处理的相关需求和特点,并对非结构化数据转换的主要方法进行对比,根据实际情况采用基于机器学习的实体关系抽取方法实现了非结构化数据的结构化,并将非结构化数据向结构化数据转换的过程分解为三个关键问题,即分词和词性标注,命名实体识别和实体关系抽取。本文重点对其中的两个核心任务命名实体识别和实体关系抽取进行了算法研究和实现。对分类并解析后的非结构化文本,本文首先利用中科院的NLPIR(Natural Language Processing and Information Retrieval)自动分词工具包进行分词和词性标注等预处理工作。然后采用规则和CRFs(Conditional Random Fields)相结合的方法完成命名实体识别任务,具体地,对数字和时间表达式这些简单实体使用外部资源表和规则相结合的方法进行实体识别,对人名、地名和组织机构名等复杂的其他类型命名实体则通过CRFs和规则相结合的方法进行识别处理。本文还针对不同类型实体制定了特定的特征模板,通过实验调优得到最佳窗口大小,并用L-BFGS算法对模型参数进行估计训练,在此基础上结合CRF++工具包对算法进行了具体实现。最后通过基于无监督的K-means聚类算法完成实体关系抽取任务,并根据实际需求对K-means算法中的K取值、初始化聚类中心选择和孤立点问题进行了优化,基本实现了从非结构化数据中获取结构化数据的目标。本文对非结构化数据转换中的命名实体识别和关系抽取算法进行了重点研究和实现,并完成了相关功能的测试以及相应结果的分析工作。测试结果表明,本文提出的命名实体识别和关系抽取等算法能够对科技云文本中需要的数据进行有效提取,整合成结构化数据。该研究为科技云建设中的数据处理工作提供了技术支持,减轻了人工数据处理的工作量,提高了处理速度和效率,具有一定的实用价值。