论文部分内容阅读
机构规范文档是将机构所有名称形式以及属性信息有序集中、梳理机构组织结构的一种方式,可有效解决信息检索、计量评价等科研活动中机构名称著录混乱、层级结构模糊的瓶颈问题。文章在充分调研机构规范文档建设实践项目的基础上,深入探究机构命名规则及属性特征,梳理机构实体关联关系,构建机构规范文档的元数据框架,设计机构规范文档构建流程。 根据元数据的设计及规范理论,文章在复用都柏林核心元数据集的基础上进行扩展,为机构规范文档定制了描述性元数据集以及管理性元数据集,并借鉴ISO/IEC11179标准,对机构规范文档的元数据进行了语义定义。为实现清晰展现机构关联关系之目的,文章借助本体的构建思想,构建机构树体系。 基于机构名称特征词字典对机构数据中的各级机构名称进行识别,利用NLPIR分词系统对机构地区、邮编等特征进行提取,采用基于K-近邻算法与编辑距离相似度算法相结合的机构名称归一方法,通过人工收集以及频次统计的方式确定机构样本数据,实现一级机构名称、二级机构名称归一。 最后,以100种期刊论文中的267996条机构数据为数据源,从中筛选我国内地高校19800条记录作为目标数据,进行具体的归一实证,并从归一准确率、归一覆盖率两方面对归一结果进行了评估。