基于描述逻辑的Web文本挖掘

来源 :沈阳师范大学 | 被引量 : 0次 | 上传用户:doto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来伴随人工智能(Artificial Intelligence)的发展,描述逻辑(Description Logics,简写为DLs)这种底层技术研究也变为研究热点。事实上描述逻辑不仅在人工智能方面有成就,在农业、天文学、基因工程、信息安全、能源管理、地球科学、机械等多种领域都有应用。尤其在OWL2标准下,弥补OWL标准的不足,促使Web本体语言上得到了长足发展。与此同时Web发展也相当迅速,根据中国互联网信息中心(CNNIC)的统计报告,截至2018年6月中国的网站数量已经达到了544万个。如此规模的网站给精确搜索和Web文本内容的潜在语义(Latent Semantic)发现带来不小压力。为了解决Web上潜在数据关系处理的问题,在Web文本挖掘过程中引入描述逻辑用来进行知识表示。
  Web文本挖掘过程分为三步:Web数据预处理(包含数据抽取);Web文本挖掘;后续处理和结果评价。本文的侧重点在Web文本挖掘和结果评价上。由于Web页面具有其复杂性,具体体现在它的非结构化数据形式上,前期处理可采用简单的数据处理技术,将其中的声音、图片、视频信息等进行删除,仅保留文本数据。本文分别介绍聚类和分类两种Web文本挖掘技术和它们的相似度计算并选用HTML文本集合对其做了具体说明。结果评价采用监督学习常用的F-Score计算方法。描述逻辑的推理方面,本文介绍一种基于本体的Pellet概念分类算法,其依赖的描述逻辑拥有较强的表达能力。此外,本文还提出一种基于HTML路径的层次聚类计算方法,即PathHP算法,可实现Web文本聚类。
  本文选用文献研究的方式查找了相关理论和技术,并采用对比的形式对其进行分析整理,寻找技术突破点。由于XML格式数据在Web知识管理和存储方面有着很重要的地位,因此在进行知识库构建过程中将HTML文本转为XML格式。传统的聚类方法存在聚类解释性弱,或者对聚类结果没有任何的解释说明的问题。将描述逻辑用来表示Web挖掘过程中的知识,能够对标签数据和文件之间的数据进行关联,最终获得数据维度的降低和聚类簇中相关性的好处。然后在实验中选用XML Schema的方式描述Web文本结构,并使用ALCIF描述逻辑对其进行表示,将其作为Web文本信息的载体存入知识库中,可实现对具有包含关系的文本进行约减。最后使用K-Means++算法聚类并通过Python工具包绘制聚类结果。实验表明描述逻辑对Web文本数据降维,发现其中潜在语义关系,使描述逻辑知识库数据聚类的效率和聚类结果的可解释性得以提高。
其他文献
逻辑仿真(LogicSimulation)是数字系统或者数字电路对其逻辑功能正确性进行验证的过程。作为数字芯片领域应用最为广泛的技术之一,逻辑仿真贯穿于芯片设计、生产、测试和制造整个生命周期。同时,逻辑仿真也是芯片测试理论中的基础性技术,本文的研究是在芯片可测试性设计的背景下进行的。  随着芯片规模的不断增长,工业上花费在千万门级甚至是上亿门的电路仿真时间越来越长,这导致了过长的设计周期和很高的设
图像的艺术风格渲染目的是合成一幅图像,在保留原始内容图像内容和结构的同时,具有参考风格图像的风格特征。以数字内容为基础的动漫制作和影视作品制作的产业等,利用图像渲染技术可以实现某些无法通过真实拍摄得到的影视效果,降低制作成本并且提高产出效率。中国水墨画不同与其他艺术绘画,同一幅画作里,描绘的物体在尺寸和细致程度上相距甚远。通常以墨和水作为调色剂表达颜色和阴影,只呈现灰度特征。因此,将中国水墨画渲染
学位
视网膜血管结构被广泛地用于眼科疾病,糖尿病,心血管类疾病的诊断,筛查和临床研究。然而,由于视网膜病变、血管中心反光现象、血管背景对比度低、血管分支和拓扑结构复杂等影响,视网膜血管分割是一项具有挑战性的任务。  为了克服上述挑战,本文提出了基于分频卷积神经网络(OctaveUNet)的视网膜血管分割方法,实现了高精度快速的视网膜眼底图像血管自动分割。为了提高网络特征对血管分割的判别能力,基于分频卷积
机器人是一种由多个子系统紧密耦合而成的复杂机电一体化系统。机器人设计过程中,设计工程师往往需要花费冗长的时间来处理不同系统的复杂关系,经过大量重复和循环的设计工作,才能得到一套可行的、成熟的机器人设计方案。而机器人的设计自动化是一项对机器人进行系统建模和反复迭代优化的技术,可以辅助设计师解决机器人的设计优化问题,具有巨大的发展前景。  本文以一款示教机械臂的设计优化问题作为例子,介绍了一种机器人设
同时定位与建图(Simultaneous Localization and Mapping,SLAM)作为智能移动机器人领域的一个重要分支,是机器人在未知环境探索中是否完全自主的关键所在,而基于视觉的同时定位与建图正是该领域的一个研究热点。本文根据现有移动机器人视觉SLAM系统中存在的:  (1)基于视觉地图在线构建法,多为稀疏的点云地图,不能用于机器人导航与避障的问题;  (2)常规蒙特卡罗定位
心力衰竭是目前全球范围内最常见的致死因素之一,它给患者、患者家庭以及全社会都带来巨大的精神与经济负担。建立可靠的心衰自动预警模型对心衰疾病的管理有着至关重要的意义,也成为近年来医生和决策者日益关注的问题。本文以多参数智能监测数据库中的心电信号、临床检查变量及人口统计学资料为研究对象,将信号处理与机器学习技术引入该领域初步建立了心衰自动预警评估模型。研究内容主要包括:  (1)根据心电信号为典型时序
学位
随着我国信息化程度的不断提升、5G网络深度覆盖,以信息化促进医疗事业的发展变得尤为重要。2019年3月5日,国务院总理李克强作政府工作报告中也强调了加快建立远程医疗服务体系,推动5G和物联网技术在医疗领域的应用,拥抱产业互联网,推动医疗行业走上“云”端,促进“互联网+医疗卫生”发展,推动电子病历共享,促进医学人工智能和医疗大数据发展,加强基层医护人员培养,提升分级诊疗和家庭医生签约服务质量,以信息
由于受教育人数不断增加,教学水平的不断提高,我国已经形成了世界上规模最大的高等教育体系,随着生源数量的持续增长,高校招生的相关信息也自然而然的成为家长和学生关注的焦点。家长和学生通常会通过报考书籍、传统搜索引擎还有人工咨询的方式来获取高校信息。但是,相关书籍往往不能够仔细全面的展现学校的信息;通过传统搜索引擎搜索到的信息往往比较繁琐且含糊,尤其在互联网信息急剧增长的今天,没有办法保证用户得到信息的
学位
视频监控系统在我国的社会生产生活中得到广泛应用,在保证人民生命财产安全,维护社会生产生活的正常秩序等方面,发挥出巨大作用。监控系统在实际应用中,主要以定点视频监控模式为主。视频监控系统中的数据分析,尤其是以人这一关键要素为主要研究对象的目标检测、目标识别等研究,是研究人员所面临的重点同时也是难点问题。探索高效、准确的分析方法,有效构建出视频中行人检测与识别分析系统,是当前研究过程中的热门研究课题之
学位
随着教学资源的完善和网络技术的发展,教学的中心从过去的以教师的教不断转变为基于学生独立探究的新教学模式,在学生主观能动性的促使下,他们发现问题、提出问题、探索问题、解决问题,汲取知识的热情达到了空前的高度,如何有效率的解决学生在课堂课后遇到的问题,成为越来越多教师的难题,至此自动答疑系统应运而生。自动答疑系统是中文信息检索领域的一个重要应用,作为课堂的补充和延续,学生与系统进行交互时,它可以消除学