论文部分内容阅读
随着信息技术的发展,越来越多的企事业单位迫切希望利用信息技术提升工作效率和提高信息资源的利用率。而由于信息化项目的复杂性,在信息化建设的过程中强烈需要信息化专家对项目进行咨询,参与到信息化项目的规划、可行性研究、实施方案设计和项目选型等阶段的工作中。因此,针对不同类型的信息化项目,能否从专家库中选择合适的专家是信息化建设成功实施的关键。传统的专家抽取多采用随机的方式或基于关键字的抽取方式,这两种方式过于简单,缺乏语义性,均不能保证项目所选择的专家组是最匹配的。因此,该文以重庆市信息化专家咨询系统为研究对象,利用本体在领域知识表达上的优势,以信息化领域本体为基础,从语义的角度计算信息化专家与信息化项目的相似度,从而解决专家抽取问题。该文首先设计了信息化领域本体的构建步骤,重点针对信息化领域本体的概念提取问题,对文档集进行了分词和词性标注处理,再通过停用词表过滤掉分词结果集中的停用词,从而得到候选概念集;针对TFIDF在概念提取上的不足,提出了基于信息熵的TFIDFI方法,并运用该方法,从候选概念集中提取出了信息化领域本体中的概念;通过protégé本体编辑工具,完成了信息化领域本体的编辑。其次,在信息化领域本体的基础上,针对传统的基于点和基于边的语义相似度计算方法的不足,并综合考虑了信息化领域本体中概念的深度、所处区域密度、概念的边的类型、概念间路径和概念共同属性对语义相似度的影响,提出了改进的语义相似度算法,用于计算项目与专家的相似度。最后,在前两步研究实现的基础上,对重庆市信息化专家咨询系统的架构、功能模块和数据库进行了设计,并完成了系统的开发工作,实现了系统的各项功能。通过两个测验说明该文的研究成果:其一,将重庆市信息化专家咨询系统的专家相似度计算结果与人工相似度判断对比,得到了80%以上的拟合度;其二,该文所提出的改进的相似度算法得到的平均准确率为44.1%,高于基于点算法的32.53%和基于边算法的28.81%;平均召回率为51.5%,高于基于点相似度算法的46.22%和基于边相似度算法的39.66%。以上两组测验数据表明,该文所提出的相似度算法拥有较高的人工拟合度并提高了专家抽取的准确率与召回率。目前,重庆市信息化专家咨询系统已交付给重庆市经济和信息化委员会使用,应用于重庆市的信息化咨询和评审工作中,取得了较好的效果。