论文部分内容阅读
信息技术的快速发展导致电子资源以指数级增长,为了更好的管理和利用电子资源,采用元数据方案实现电子资源整合已得到广泛关注。以往基于元数据的电子资源整合,都是在各类电子资源及元数据比较结构化且数量少的情况下,通过人工制定统一元数据标准或元数据标准间的映射来实现。而针对多源异构的电子资源,就需要考虑元数据的自动识别。本文从以上角度出发,主要探讨了元数据的自动识别方法,包括两个部分:中介元数据标准的自动建立及元数据的自动映射,其中标准的建立是映射的基础。
中介元数据标准的建立,通过文本聚类方式来实现。首先对各类电子资源的元数据名称进行预处理;其次,将元数据转换为树结构,挖掘其最大频繁路径,构建向量空间模型;接着采用层次聚类法对元数据进行聚类,得到聚类结果:最后根据元数据的类别,建立中介元数据标准。
元数据的自动映射,采用模式匹配方法。借鉴树匹配理论,构建元数据树匹配模型,将新电子资源元数据树与元数据标准模板树进行名称匹配、结构匹配及相似度计算,建立新元数据与中介元数据标准的映射,将元数据自动归类,从而实现新电子资源的归类及整合。
最后,通过实证研究验算了中介元数据标准及元数据映射的方法,从实际出发验证了多源异构电子资源的元数据自动识别方法的可行性。