论文部分内容阅读
近年来伴随人工智能(Artificial Intelligence)的发展,描述逻辑(Description Logics,简写为DLs)这种底层技术研究也变为研究热点。事实上描述逻辑不仅在人工智能方面有成就,在农业、天文学、基因工程、信息安全、能源管理、地球科学、机械等多种领域都有应用。尤其在OWL2标准下,弥补OWL标准的不足,促使Web本体语言上得到了长足发展。与此同时Web发展也相当迅速,根据中国互联网信息中心(CNNIC)的统计报告,截至2018年6月中国的网站数量已经达到了544万个。如此规模的网站给精确搜索和Web文本内容的潜在语义(Latent Semantic)发现带来不小压力。为了解决Web上潜在数据关系处理的问题,在Web文本挖掘过程中引入描述逻辑用来进行知识表示。
Web文本挖掘过程分为三步:Web数据预处理(包含数据抽取);Web文本挖掘;后续处理和结果评价。本文的侧重点在Web文本挖掘和结果评价上。由于Web页面具有其复杂性,具体体现在它的非结构化数据形式上,前期处理可采用简单的数据处理技术,将其中的声音、图片、视频信息等进行删除,仅保留文本数据。本文分别介绍聚类和分类两种Web文本挖掘技术和它们的相似度计算并选用HTML文本集合对其做了具体说明。结果评价采用监督学习常用的F-Score计算方法。描述逻辑的推理方面,本文介绍一种基于本体的Pellet概念分类算法,其依赖的描述逻辑拥有较强的表达能力。此外,本文还提出一种基于HTML路径的层次聚类计算方法,即PathHP算法,可实现Web文本聚类。
本文选用文献研究的方式查找了相关理论和技术,并采用对比的形式对其进行分析整理,寻找技术突破点。由于XML格式数据在Web知识管理和存储方面有着很重要的地位,因此在进行知识库构建过程中将HTML文本转为XML格式。传统的聚类方法存在聚类解释性弱,或者对聚类结果没有任何的解释说明的问题。将描述逻辑用来表示Web挖掘过程中的知识,能够对标签数据和文件之间的数据进行关联,最终获得数据维度的降低和聚类簇中相关性的好处。然后在实验中选用XML Schema的方式描述Web文本结构,并使用ALCIF描述逻辑对其进行表示,将其作为Web文本信息的载体存入知识库中,可实现对具有包含关系的文本进行约减。最后使用K-Means++算法聚类并通过Python工具包绘制聚类结果。实验表明描述逻辑对Web文本数据降维,发现其中潜在语义关系,使描述逻辑知识库数据聚类的效率和聚类结果的可解释性得以提高。
Web文本挖掘过程分为三步:Web数据预处理(包含数据抽取);Web文本挖掘;后续处理和结果评价。本文的侧重点在Web文本挖掘和结果评价上。由于Web页面具有其复杂性,具体体现在它的非结构化数据形式上,前期处理可采用简单的数据处理技术,将其中的声音、图片、视频信息等进行删除,仅保留文本数据。本文分别介绍聚类和分类两种Web文本挖掘技术和它们的相似度计算并选用HTML文本集合对其做了具体说明。结果评价采用监督学习常用的F-Score计算方法。描述逻辑的推理方面,本文介绍一种基于本体的Pellet概念分类算法,其依赖的描述逻辑拥有较强的表达能力。此外,本文还提出一种基于HTML路径的层次聚类计算方法,即PathHP算法,可实现Web文本聚类。
本文选用文献研究的方式查找了相关理论和技术,并采用对比的形式对其进行分析整理,寻找技术突破点。由于XML格式数据在Web知识管理和存储方面有着很重要的地位,因此在进行知识库构建过程中将HTML文本转为XML格式。传统的聚类方法存在聚类解释性弱,或者对聚类结果没有任何的解释说明的问题。将描述逻辑用来表示Web挖掘过程中的知识,能够对标签数据和文件之间的数据进行关联,最终获得数据维度的降低和聚类簇中相关性的好处。然后在实验中选用XML Schema的方式描述Web文本结构,并使用ALCIF描述逻辑对其进行表示,将其作为Web文本信息的载体存入知识库中,可实现对具有包含关系的文本进行约减。最后使用K-Means++算法聚类并通过Python工具包绘制聚类结果。实验表明描述逻辑对Web文本数据降维,发现其中潜在语义关系,使描述逻辑知识库数据聚类的效率和聚类结果的可解释性得以提高。