基于中文百科的知识图谱分类体系构建研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wjyjiedabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知识图谱构建分类体系,是亟需解决的问题,这是一个非常有意义和挑战的问题。在文中,我们提出了一套完善的为中文百科知识图谱构建分类体系的方法。我们以百科词条为实体,从百科页面中抽取了词条的相关信息,并把词条的信息结构化为特征。我们从百科自有分类树和词条的分类标签中抽取出了类目词条,并根据实体词条和类目词条之间的关联为类目生成了结构化特征。为了获得分类体系中的subclass-of关系,我们采用了支持向量机模型(SVM)。首先构造出两个类目之间的相关性特征作为输入,用人工标注的数据训练好的模型之后,再用模型判断两个类目之间是否存在subclass-of关系。对与instance-of关系的判断,我们在加入subclass-of关系制约的基础上还提出了两种整数规划的方法。整数规划的方法除了考虑直接的instance-of关系特征外,还考虑到了类目之间的关联结构。我们通过实验证明了我们的方法在解决实际问题上获得了令人满意的结果。最后我们还尝试了把整个分类体系构建算法放到迭代模型当中。在整个迭代的过程中,我们利用了subclass-of关系和instance-of关系的传递性,使得它们之间能够相互制约同时相互提升。通过实验数据,我们看到整个迭代模型达到了预期的效果,可以在此基础上进行后续的研究。
其他文献
随着计算机技术的不断发展,互联网已经成为人们日常工作、生活中不可缺少的信息来源。而由于网络信息本身的特点,这些信息给用户的主要是定性的参考。特别在金融领域,一直以
随着网络数据通信的迅猛发展,尤其是Internet业务量呈爆炸性增长,对数据传输网带宽的需求越来越高。由于波分复用(Wavelength Division Multiplexing, WDM)技术能提供巨大传
凭借着高性能、低功耗的特点,多核处理器在嵌入式实时系统中的应用越来越广泛。然而,由多核实时系统造成的一个最大问题是人们无法对此系统的时间属性做出比较精确的预测。在
无线传感器网络是信息感知和采集的一场革命,在各个领域有着广泛的应用前景,将给人类的生活和生产带来极大的影响。虽然目前已有一些无线传感器网络应用的实例,但由于技术等
随着计算机和网络通信技术的快速发展,Internet已经成为人们生活中不可缺少的一部分。然而,不断扩大的网络规模和复杂的网络结构造成作为域间路由标准的BGP协议面临严重的性
基于P2P的分布式存储技术与传统的集中式存储技术相比,具有容量大,可扩展性好,负载均衡,成本低等优势,完全适应了信息社会的发展趋势,能够满足人们日益增长的存储需求。然而P
对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距
随着计算机、网络技术的飞速发展,以及计算机图形学理论的日渐完善,三维模型已经逐渐成为继声音、图像和视频之后的第四种多媒体数据类型。其数量更是呈现爆炸性的增长,由于
随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视
作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使